Deep Learning/논문정리6 GloVe : Global Vectors for Word Representation Introduction * 기존의 word vector를 학습하는 모델은 두 가지이다. 1) LSA 2) skip-gram * LSA는 통계학적 정보를 최대로 이용하지만, 단어 유추 task에서는 성능이 좋지 않음. * skip-gram은 단어 유추에서는 성능이 좋지만, 통계학적 정보를 활용하지 못한다. The GloVe Model * word occurence 통계에서 어떻게 의미가 생성되는지, 결과 벡터가 어떻게 단어의 뜻을 표현하는지는 알 수 없었다. 이를 해결하기 위해 GloVe가 만들어졌다. Notation * word-word co-occurrence matrix를 X라고 하자. * matrix $X \in \mathbb R^{V \times V}$ 이다. vocabulary의 크기만큼의 si.. 2022. 2. 12. Indexing by Latent Semantic Analysis(LSA) Introduction * 검색 기법의 근본적 문제 : 유저들은 conceptual content에 기초해 검색 but concept를 표현하는 단어가 많고 단어의 다의성 때문에 쿼리가 제대로 작동하지 않음 ex) conceptual content = naver일 때 naver를 검색하기 위해 'it회사', '초록창', '검색엔진' 등 을 사용할 수 있음. 여기서 '초록창'은 naver를 지칭하는 은어이지만, 실제로 초록색 창문을 의미 할 수도 있음. * 문제의 해결법 : data에 latent sematic structure가 잠재되어 있다고 가정하고 해당 structure를 찾아 indexing과 검색에 이용. latent semantic structure를 찾기 위해서 SVD(Singular Val.. 2022. 2. 11. 이전 1 2 다음