•
Word2Vec 자료
•
GloVe 자료
Lecture 2 - Neural Classifiers
2-1. Stochastic Gradient Descent(SGD) - 질문 1
•
CBOW 학습법 참고
2-2. Word2Vec학습 방법
2-2-1. CBOW ( Continuous Bag Of Words)
•
예측하기위해 참고해야하는 단어 2n개
◦
= Center word의 (앞에 있는 n개의 단어) + (뒤에 있는 n개의 단어)
2-2-2. Skip-Gram(+ CBOW 보다 성능이 좋은 이유)
•
Skip-gram이 CBOW보다 성능이 좋은 이유
2-2-3. Skip-Gram With Negative Sampling(SGNS)
•
Skip-gram : 입력단어를 통해 주위 단어를 예측 (Multiclass Classification)
•
SGNS : 입/출력을 모두 입력으로 바꾸고 그것이 문장 내에 존재하면 1, 그렇지 않다면 0 (Binary Classification)
•
만약 Skip gram의 데이터를 그대로 가져온다면?
◦
모든 label이 1일 것이다.
•
Center word 주위에 없는 단어를 강제로 끌어와서 Sampling (Negative Sampling)
•
최종 Embedding Matrix를 사용하는 두가지 방법의 성능 차이는 크지 않다고 한다.
2-3. co-occurrence matrix - 질문 2
•
sparse representation이기 때문에 모델의 강건성이 떨어짐
◦
Word2Vec처럼 Dense Vector로 차원을 줄인다.
◦
SVD(Singular Value Decomposition)로 3개의 행렬곱으로 분해
2-4. Count based VS Predict based
co-occurence matrix(count-based)
•
장점1. 빠른 훈련 속도
•
장점2. 효율적으로 통계정보 사용
•
단점1. 주로 단어 유사성 여부만을 파악함. 단어 간 관계는 파악할 수 없음.
•
단점2. 빈도수가 클수록 과도한 중요성을 부여하여 불균형함.
neural updating algorithm
•
장점1. 높은 수준의 성능
•
장점2. 단어 유사성 이상의 복잡한 패턴을 파악 가능
•
단점1. corpus의 크기가 성능에 영향을 미침.
•
단점2. 효율적으로 통계정보를 사용하지 못함. (비교적)
2-5. Glove algorithm
•
임베딩 방법론 두가지(예측 기반 & 카운트 기반)의 장점을 취하여 등장
•
임베딩된 중심 단어와 주변 단어 벡터의 내적이 전체 corpus에서의 co-occurrence probability
2-6. Word2Vec과 GloVe 알고리즘이 가지고 있는 단점?
•
Word2Vec의 단점
◦
vocabulary의 사이즈가 크기 때문에 모델이 softmax 함수를 사용하여 학습하기가 어렵다.
•
GloVe의 단점
◦
모델은 단어의 co-occurence 행렬을 가지고 학습을 하는데 이는 꽤 많은 양의 메모리를 요구한다. 특히 co-occurence 행렬과 관련된 하이퍼파라미터를 변경할 경우 다시 행렬을 계산해야 하므로 시간이 많이 든다.
•
Word2Vec과 GloVe가 풀지 못한 문제
◦
vocabulary 외의 단어를 어떻게 표현해야 하는가?
◦
반의어 쌍을 어떻게 분리시켜야 하는가?
▪
good과 bad는 벡터 공간에서 매우 가깝게 붙어있다고 한다. 이럴 경우 감정분석과 같은 task의 성능이 낮아질 수 있다.