검색 랭킹에 사용되는 용어 정리

IT/검색엔진 2008. 7. 8. 18:50

검색엔진의 주로 벡터 스페이스 모델에 사용되는 용어입니다.

1. TF (Term Frequency) : 하나의 문서 안에서의 Term의 출현 횟수
2. CF (Collection Frequency) : 하나의 콜렉션 안에서의 Term의 총 출현 횟수
3. DF (Document Frequency) : 하나의 콜렉션 안에서 Term이 출현한 문서의 개수
4. IDF (Inverse Document Frequency) : DF의 역수
5. TF * IDF : TF가 크고, DF가 작을수록 가중치는 커진다,
이것은 전체 문서에서 공통적으로 등장하는 단어들은 걸러지게 된다.
   특정 문서에서 어떤 단어의 중요도를 평가하기 위해 사용되는 통계적인 수치.

예) 만약, 100개의 단어로 이루어진 어떤 문서에 단어 search가 3번 등장한다면,
   단어 search의 TF는 0.03 (= 3 / 100)이고,
   또한, 전체 10,000,000개의 문서 중에서 단어 search가 들어 있는 문서들의 숫자가 1,000개라면,
   DF는 0.0001 (= 1,000/10,000,000)이며 최종 TF*IDF 가중치는 300 ( = 0.03 * 1/0.0001)이 된다.

이러한 것이 가장 기본적인 것이며, DF에 로그를 취하는 방법도 있으며, 여러가지 방법이 있을 것이다.
   만약 자연로그를 취한다면 IDF는 9.21 ( log(10,000,000/1,000))가 되고,
   TF*IDF 가중치는 0.27 (= 0.03 * 9.21)이 된다.

'IT > 검색엔진' 카테고리의 다른 글

확장 불리언 모델 (Extended Boolean Model ) (0)	2008.07.11
불리언 모델 (Boolean Model) (0)	2008.07.10
벡터 스페이스 모델 (Vector Space Model, VSM) (1)	2008.07.09
정보검색 개요 (1)	2008.04.15
검색엔진의 Posting File에 사용할만한 압축 기법 (0)	2008.02.26

쩐의시대

나답게 살아가고 나답게 살아가자

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30