Search
🤖

[ML] TF-IDF란?

TF-IDF = Term Frequency-Inverse Document Frequency

조금 어렵게 말하면 정보 검색과 텍스트 마이닝 분야에서 텍스트 내에서 특정 단어의 중요도를 평가하는 데 사용되는 통계적 가중치라고 볼 수 있다.
만약 문장이 여러개 있는 데이터셋에서 각 단어의 상대적인 중요성을 나타내는데 주로 쓰이는 지표이다.
쉽게 말해서 단어 빈도 (Term Frequency, TF)와 문서 역빈도 (Inverse Document Frequency, IDF)를 곱해준 결과를 말한다.
1.
단어 빈도 (Term Frequency, TF)
TF를 통해 특정 단어 t가 문서 d내에서 얼마나 많이 등장하는지 계산한다.
TF(t,d)=단어 t가 문서d내에서 등장하는 횟수문서d내의 전체 단어 수TF(t,d) = \frac{단어~t가~문서d내에서~등장하는~횟수}{문서d내의~전체~단어~수}
1.
문서 역빈도 (Inverse Document Frequency, IDF)
경우에 따라 다르긴 한데, 보통 log를 씌워 계산한다.
IDF(t,D)=log(전체 문서 수단어 t를 포함하는 문서 수)IDF(t,D) = log(\frac{전체~문서~수}{단어~t를~포함하는~문서~수})
3.
TF-IDF
따라서 최종적으로 TF-IDF는 아래와 같이 구할 수 있다.
TFIDF(t,d,D)=TF(t,d)×IDF(t,d)TF-IDF(t,d,D) = TF(t,d) \times IDF(t,d)
fin