Search
🐸

[11/10(목)] Lecture 2 : Neural Classifiers

Word2Vec 자료
Distributed_Representations_of_Words_and_Phrases_and_their_Compositionality.pdf
122.3KB
GloVe 자료
GloVe_Global_Vectors_for_Word_Represnetation.pdf
2599.4KB

Lecture 2 - Neural Classifiers

2-1. Stochastic Gradient Descent(SGD) - 질문 1

CBOW 학습법 참고

2-2. Word2Vec학습 방법

2-2-1. CBOW ( Continuous Bag Of Words)

예측하기위해 참고해야하는 단어 2n개
= Center word의 (앞에 있는 n개의 단어) + (뒤에 있는 n개의 단어)

2-2-2. Skip-Gram(+ CBOW 보다 성능이 좋은 이유)

Skip-gram이 CBOW보다 성능이 좋은 이유

2-2-3. Skip-Gram With Negative Sampling(SGNS)

Skip-gram : 입력단어를 통해 주위 단어를 예측 (Multiclass Classification)
SGNS : 입/출력을 모두 입력으로 바꾸고 그것이 문장 내에 존재하면 1, 그렇지 않다면 0 (Binary Classification)
만약 Skip gram의 데이터를 그대로 가져온다면?
모든 label이 1일 것이다.
Center word 주위에 없는 단어를 강제로 끌어와서 Sampling (Negative Sampling)
최종 Embedding Matrix를 사용하는 두가지 방법의 성능 차이는 크지 않다고 한다.

2-3. co-occurrence matrix - 질문 2

sparse representation이기 때문에 모델의 강건성이 떨어짐
Word2Vec처럼 Dense Vector로 차원을 줄인다.
SVD(Singular Value Decomposition)로 3개의 행렬곱으로 분해

2-4. Count based VS Predict based

co-occurence matrix(count-based)
장점1. 빠른 훈련 속도
장점2. 효율적으로 통계정보 사용
단점1. 주로 단어 유사성 여부만을 파악함. 단어 간 관계는 파악할 수 없음.
단점2. 빈도수가 클수록 과도한 중요성을 부여하여 불균형함.
neural updating algorithm
장점1. 높은 수준의 성능
장점2. 단어 유사성 이상의 복잡한 패턴을 파악 가능
단점1. corpus의 크기가 성능에 영향을 미침.
단점2. 효율적으로 통계정보를 사용하지 못함. (비교적)

2-5. Glove algorithm

임베딩 방법론 두가지(예측 기반 & 카운트 기반)의 장점을 취하여 등장
임베딩된 중심 단어와 주변 단어 벡터의 내적이 전체 corpus에서의 co-occurrence probability

2-6. Word2Vec과 GloVe 알고리즘이 가지고 있는 단점?

Word2Vec의 단점
vocabulary의 사이즈가 크기 때문에 모델이 softmax 함수를 사용하여 학습하기가 어렵다.
GloVe의 단점
모델은 단어의 co-occurence 행렬을 가지고 학습을 하는데 이는 꽤 많은 양의 메모리를 요구한다. 특히 co-occurence 행렬과 관련된 하이퍼파라미터를 변경할 경우 다시 행렬을 계산해야 하므로 시간이 많이 든다.
Word2Vec과 GloVe가 풀지 못한 문제
vocabulary 외의 단어를 어떻게 표현해야 하는가?
반의어 쌍을 어떻게 분리시켜야 하는가?
good과 bad는 벡터 공간에서 매우 가깝게 붙어있다고 한다. 이럴 경우 감정분석과 같은 task의 성능이 낮아질 수 있다.

Lecture 3 - Backprop and Neural Networks

3-1. Named Entity Recognition(NER)

3-2. Jacobians

3-3. Backpropagation