tf-idf1 [NLP] 유사도 검색 알고리즘 TF-IDF 및 BM25 파이썬과 정리 RAG를 공부하다보면 DPR을 공부하게 되는데, DPR에서 기존 SOTA로 언급한 메소드가 있으니 바로 BM25이다. 그래서 이번 포스팅에선 TF-IDF와 BM25를 간단하게 정리하려고 한다. TF-IDFTF-IDF는 텍스트마이닝 공부를 하다보면 초반에 배우게 되는 알고리즘이다. 문서를 어떻게 벡터, 즉 숫자로 바꿀 것이냐에 대한 알고리즘인데, 방식이 쉽고 간단한 점이 장점이다. 또한 문서 내에서 단어가 얼마나 중요한지를 나타낼 수 있는 통계적 지표로도 활용 가능하여 처음 제시된 것이 1972년이니 얼마나 이 분야에서 잘 활용되었는지 알 수 있다. 공식을 살펴보면$\text{TF-IDF}(t,d) = \text{TF}(t,d) \times \text{IDF}(t)$ $\text{TF}(t,d) = \fr.. 2025. 3. 11. 이전 1 다음