🐸

[11/10(목)] Lecture 2 : Neural Classifiers

•

Word2Vec 자료

Distributed_Representations_of_Words_and_Phrases_and_their_Compositionality.pdf

122.3KB

•

GloVe 자료

GloVe_Global_Vectors_for_Word_Represnetation.pdf

2599.4KB

Lecture 2 - Neural Classifiers

2-1. Stochastic Gradient Descent(SGD) - 질문 1

•

CBOW 학습법 참고

2-2. Word2Vec학습 방법

2-2-1. CBOW ( Continuous Bag Of Words)

•

예측하기위해 참고해야하는 단어 2n개 

◦

= Center word의 (앞에 있는 n개의 단어) + (뒤에 있는 n개의 단어)

2-2-2. Skip-Gram(+ CBOW 보다 성능이 좋은 이유)

•

Skip-gram이 CBOW보다 성능이 좋은 이유

Word2Vec의 학습 방식

https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/03/30/word2vec/

2-2-3. Skip-Gram With Negative Sampling(SGNS)

•

Skip-gram : 입력단어를 통해 주위 단어를 예측 (Multiclass Classification)

•

SGNS : 입/출력을 모두 입력으로 바꾸고 그것이 문장 내에 존재하면 1, 그렇지 않다면 0 (Binary Classification)

•

만약 Skip gram의 데이터를 그대로 가져온다면?

◦

모든 label이 1일 것이다.

•

Center word 주위에 없는 단어를 강제로 끌어와서 Sampling (Negative Sampling)

•

최종 Embedding Matrix를 사용하는 두가지 방법의 성능 차이는 크지 않다고 한다.

워드투벡터(Word2Vec) - CBOW, Skip-gram

Sparse Representation Distributed representation CBOW(Continuous Bag of Words) Skip-gram 원-핫 벡터는 단어 간 유사도를 계산할 수 없다는 단점이 있습니다. 단어 간 유사도를 반영할 수 있도록 단어의 의미를 벡터화 할 필요가 있었습니다. 그중 대표적인 방법이 Word2Vec입니다. 원-핫 인코딩을 통해 나온 원-핫 벡터가 Sparse Representation이며, sparse vector라 하였습니다.

https://velog.io/@cha-suyeon/%EC%9B%8C%EB%93%9C%ED%88%AC%EB%B2%A1%ED%84%B0Word2Vec

Word2vec 알고리즘 리뷰 1 : CBOW 와 Skip-gram

https://simonezz.tistory.com/34 추천시스템 Recommender System 정리 코드만 짜고 하다보니 전체적인 그림이 자꾸 잊혀지는 것 같아 한 번 정리를 쭉 해보고자 한다. 참고 추천시스템이란? 사용자의 interest를 예측해서 흥미로워할 만한 상품을 추천해주는 것. 추천� simonezz.tistory.com 위의 포스팅에서 협업 필터링 시스템은 fully connected 방법이나 Item2vec 방법을 사용한다고 했는데, Item2vec은 word2vec의 아이디어를 사용한 알고리즘이므로 word2vec에 대해 알아보자.

https://simonezz.tistory.com/35

2-3. co-occurrence matrix - 질문 2

•

sparse representation이기 때문에 모델의 강건성이 떨어짐

◦

Word2Vec처럼 Dense Vector로 차원을 줄인다.

◦

SVD(Singular Value Decomposition)로 3개의 행렬곱으로 분해

점프 투 파이썬

점프 투 파이썬 오프라인 책(개정판) 출간 !! (2019.06) ** * [책 구입 안내](https://wikidocs.net/4321) 이 책은 파이썬이란 ...

https://wikidocs.net/24949

2-4. Count based VS Predict based

co-occurence matrix(count-based)

•

장점1. 빠른 훈련 속도

•

장점2. 효율적으로 통계정보 사용

•

단점1. 주로 단어 유사성 여부만을 파악함. 단어 간 관계는 파악할 수 없음.

•

단점2. 빈도수가 클수록 과도한 중요성을 부여하여 불균형함.

neural updating algorithm

•

장점1. 높은 수준의 성능

•

장점2. 단어 유사성 이상의 복잡한 패턴을 파악 가능

•

단점1. corpus의 크기가 성능에 영향을 미침.

•

단점2. 효율적으로 통계정보를 사용하지 못함. (비교적)

2-5. Glove algorithm

•

임베딩 방법론 두가지(예측 기반 & 카운트 기반)의 장점을 취하여 등장

•

임베딩된 중심 단어와 주변 단어 벡터의 내적이 전체 corpus에서의 co-occurrence probability

2-6. Word2Vec과 GloVe 알고리즘이 가지고 있는 단점?

•

Word2Vec의 단점

◦

vocabulary의 사이즈가 크기 때문에 모델이 softmax 함수를 사용하여 학습하기가 어렵다.

•

GloVe의 단점

◦

모델은 단어의 co-occurence 행렬을 가지고 학습을 하는데 이는 꽤 많은 양의 메모리를 요구한다. 특히 co-occurence 행렬과 관련된 하이퍼파라미터를 변경할 경우 다시 행렬을 계산해야 하므로 시간이 많이 든다.

•

Word2Vec과 GloVe가 풀지 못한 문제

◦

vocabulary 외의 단어를 어떻게 표현해야 하는가?

◦

반의어 쌍을 어떻게 분리시켜야 하는가?

▪

good과 bad는 벡터 공간에서 매우 가깝게 붙어있다고 한다. 이럴 경우 감정분석과 같은 task의 성능이 낮아질 수 있다.

What are the advantages and disadvantages of Word2vec and GloVe?

Answer: The disadvantages of Word2vec and Glove? I've mentioned some in other two questions, i.e., Wenxiang Jiao's answer to How is GloVe different from word2vec?, Wenxiang Jiao's answer to Does Word2vec do a co-occurrence count?, here I just give a summary. Word2vec: Advantages: 1. The idea i...

https://www.quora.com/What-are-the-advantages-and-disadvantages-of-Word2vec-and-GloVe

Lecture 3 - Backprop and Neural Networks