정보검색 개요를 작성한지 한참 만에 벡터 스페이스 모델에 대해서 정리를 했습니다.

벡터 스페이스 모델은 불리언 모델, 확률 모델과 더불어 검색 모델에 있어서 아주 중요한 부분입니다.

Term vector model이라고도 불리우며 정보 필터링, 정보검색, 색인과 유사도를 계산하기 위한 대수 모델입니다.
이 모델은 SMART Information Retrieval System에서 가장 먼저 언급이 되었으며,
무료 검색엔진인 루씬에서 이 모델을 기본적으로 사용하고 있습니다.


벡터공간 모델 상에서 각 도큐먼트들과 질문자들은 n차원 공간 속의 벡터들로 취급되며,
이때 각 차원들은 색인용어들로 표현된다.
이 기법에 의한 검색 절차는 다음과 같다.
1) 용어의 가중치는 정규화된 도큐먼트내의 빈도(TF)와 이의 역빈도수(IDF)를 조합하여 게산
2) "낮은 식별치(poor discrimination value)의 값을 지닌 용어들은 시소러스내의 저 빈도용어들로 대치되며
   구의 경우 고빈도 용어들로 대체된다.
3) 각 도큐먼트들은 이용자 질문에 대해서 그 유사성의 순위별로 출력되며, 이러한 과정은 코사인 상관도에
   의해 계산된다. (벡터 공간 내에서 이용자의 질의에 가장 근접해 있는 도큐먼트들을 직관적으로 검색해낸다.)


자세한 내용은 다운받아 보시길...

1. Definition
2. Applications
3. Examples
4. Limitations
5. Reference
6. Models based on and extending the vector space model

블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,

검색엔진의 주로 벡터 스페이스 모델에 사용되는 용어입니다.

1. TF (Term Frequency) : 하나의 문서 안에서의 Term의 출현 횟수
2. CF (Collection Frequency) : 하나의 콜렉션 안에서의 Term의 총 출현 횟수
3. DF (Document Frequency) : 하나의 콜렉션 안에서 Term이 출현한 문서의 개수
4. IDF (Inverse Document Frequency) : DF의 역수
5. TF * IDF : TF가 크고, DF가 작을수록 가중치는 커진다,
                  이것은 전체 문서에서 공통적으로 등장하는 단어들은 걸러지게 된다.
                 특정 문서에서 어떤 단어의 중요도를 평가하기 위해 사용되는 통계적인 수치.

예) 만약, 100개의 단어로 이루어진 어떤 문서에 단어 search가 3번 등장한다면,
     단어 search의 TF는 0.03 (= 3 / 100)이고,
     또한, 전체 10,000,000개의 문서 중에서 단어 search가 들어 있는 문서들의 숫자가 1,000개라면,
     DF는 0.0001 (= 1,000/10,000,000)이며 최종 TF*IDF 가중치는 300 ( = 0.03 * 1/0.0001)이 된다.

     이러한 것이 가장 기본적인 것이며, DF에 로그를 취하는 방법도 있으며, 여러가지 방법이 있을 것이다.
     만약 자연로그를 취한다면 IDF는 9.21 ( log(10,000,000/1,000))가 되고,
     TF*IDF 가중치는 0.27 (= 0.03 * 9.21)이 된다.

블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,