🤖

[ML] TF-IDF란?

조금 어렵게 말하면 정보 검색과 텍스트 마이닝 분야에서 텍스트 내에서 특정 단어의 중요도를 평가하는 데 사용되는 통계적 가중치라고 볼 수 있다.

만약 문장이 여러개 있는 데이터셋에서 각 단어의 상대적인 중요성을 나타내는데 주로 쓰이는 지표이다.

쉽게 말해서 단어 빈도 (Term Frequency, TF)와 문서 역빈도 (Inverse Document Frequency, IDF)를 곱해준 결과를 말한다.

단어 빈도 (Term Frequency, TF)

TF를 통해 특정 단어 t가 문서 d내에서 얼마나 많이 등장하는지 계산한다.

TF(t,d) = \frac{단어~t가~문서d내에서~등장하는~횟수}{문서d내의~전체~단어~수}

문서 역빈도 (Inverse Document Frequency, IDF)

경우에 따라 다르긴 한데, 보통 log를 씌워 계산한다.

IDF(t,D) = log(\frac{전체~문서~수}{단어~t를~포함하는~문서~수})

TF-IDF

따라서 최종적으로 TF-IDF는 아래와 같이 구할 수 있다.

TF-IDF(t,d,D) = TF(t,d) \times IDF(t,d)

fin