주어진 Query로 각 Document가 해당 Query에 적합할 확률을 베이지언 룰을 활용하여 계산하는데,
독립가정을 전제로 베이지언 룰을 이용하여, 비연관문서 집합에서 질의가 포함될 확률에 대한
연관 집합에 포함될 확률을 계산하여 문서를 찾는 모델링이다.

장점 : 문서들이 질의에 대하여 적합할 확률의 순서에 내림 차순으로 랭크된다.
단점 : 비연관 문서와 연관 문서 집합의 초기의 결과 집합을 가정해야만 한다.
         불린 모델과 같이 가중치가 없어서 색인어의 빈도수에 대한 가중치를 부여할 수가 없다. (오카피 모델에서 적용)
       색인어들에 대한 상호 독립 가정을 전제로 한다.


블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,
불리언 모델은 간결하며, 빠르지만 문서 유사도를 계산할 수 없다는 단점이 있다.
불리언 모델은 사용자 질의 처리를 위한 단순한 방법을 제공한다.
검색서비스에서도 사용자 질의 처리기는 불리언 모델을 사용해서 분석하고
검색결과는 Vector Space Model을 사용하는 형식으로 구성이 된다.

즉, Extended Boolean Model은
Boolean Model을 기반으로 해서 Vector Space Model(VSM)의 유사도 계산 기법을 이용하여 가중치를 부여할 수 없다는 단점을 해결하는데 초점이 맞추어져 있다.

Document Term Weight간의 유클리드 거리를 구해서 유사도를 찾아내며
이것은 Vector Space Model(VSM)의 TF*IDF 모델을 사용해서 구한다.

자세한 내용은 파일을 다운받아 보시길...

1. Definition
2. Boolean OR
3. Boolean AND
4. Normalized
5. P-Norm
6. AND OR 조합
7. Features

블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,

이 모델은 집합이론에 근거한 불리언 로직을 이용해서 질의어와 문서를 색인어의 집합으로 표현하는 모델이다.

불리언 모델은 사용자 쿼리로부터 주어진 Term을 포함한 문서를 찾는다고 하면,
해당 문서가 Term을 포함하고 있는지(true), 아닌지(false)에 대한 정보만을 가지고 문서를 찾아낸다.
매우 단순하고 효율적이며 빠른 구현이 가능하나, 사용자의 의도를 정확하게 파악하지 못하는 단점도 있다.

자세한 내용은 파일 다운 받아 보시길...

1. Definition
2. Query
3. Extension of Query
4. Limitations

블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,

정보검색 개요를 작성한지 한참 만에 벡터 스페이스 모델에 대해서 정리를 했습니다.

벡터 스페이스 모델은 불리언 모델, 확률 모델과 더불어 검색 모델에 있어서 아주 중요한 부분입니다.

Term vector model이라고도 불리우며 정보 필터링, 정보검색, 색인과 유사도를 계산하기 위한 대수 모델입니다.
이 모델은 SMART Information Retrieval System에서 가장 먼저 언급이 되었으며,
무료 검색엔진인 루씬에서 이 모델을 기본적으로 사용하고 있습니다.


벡터공간 모델 상에서 각 도큐먼트들과 질문자들은 n차원 공간 속의 벡터들로 취급되며,
이때 각 차원들은 색인용어들로 표현된다.
이 기법에 의한 검색 절차는 다음과 같다.
1) 용어의 가중치는 정규화된 도큐먼트내의 빈도(TF)와 이의 역빈도수(IDF)를 조합하여 게산
2) "낮은 식별치(poor discrimination value)의 값을 지닌 용어들은 시소러스내의 저 빈도용어들로 대치되며
   구의 경우 고빈도 용어들로 대체된다.
3) 각 도큐먼트들은 이용자 질문에 대해서 그 유사성의 순위별로 출력되며, 이러한 과정은 코사인 상관도에
   의해 계산된다. (벡터 공간 내에서 이용자의 질의에 가장 근접해 있는 도큐먼트들을 직관적으로 검색해낸다.)


자세한 내용은 다운받아 보시길...

1. Definition
2. Applications
3. Examples
4. Limitations
5. Reference
6. Models based on and extending the vector space model

블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,
간만에 여유가 생겨 하고 싶었던 부분들을 하나씩 정리하고자 하는 의미에서
일단은 정보검색에 대한 개요 부분을 정리했다.

1. data vs. information retrieval
2. definitions
    - collection, volume, document, term query, IRS
3. concept
4. requirement
5. issues

로 나누어서 정리를 했으며,
정보검색에 입문 하는 사람이라면 이 정도만 알고 시작해도 검색에 대한 두려움을 약간을 떨칠 수 있지 않을까 라는 생각이 든다. (나만의 생각인가???)

암튼, 부족한 부분들은 조금씩 채워나가는 방향으로 할 것이다.


블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,

시맨틱스에서 현재 개발/테스트 중인 Qrobo...
자사 홈페이지에 소개되어 있는 내용을 정리하자면 다음과 같다.

디렉토리 검색엔진은 예전부터 사용해 온 도서 분류학을 모태로 하여 각 홈페이지의 성격을 정하여 사용자의 접근을 좁혀 나가 결국에는 자신이  원하고자 하는 자료를 획득할 수 있었으나,
이젠 하나의 사이트가 하나의 성격을 가지는 것이 아니라, 여러가지 성격을 내포하고 있어
더 이상 구조화된 분류 체계로 표현하기 힘들다.
또한, 200억 페이지 가까이 되는 페이지를 사람(일명 서퍼)들이 일일이 분류하기엔 불가능한 일이다.

키워드 기반 검색엔진은 애매모호성을 띈다.
언어적으로 봤을 경우 하나의 단어가 여러가지 의미를 지니고 있음에도 불구하고
많은 링크가 달렸다는 이유로, 혹은 자주 봤다는 이유로 앞 페이지 대부분을 차지하여
정작 다른 의미의 정보를 원하고자 하여도 한참 뒷 페이지로 넘겨보거나
혹은 확실하지 않은 키워드를 여러개를 나열하여 좁혀 나가야 한다.
그러나, 정보에는 사용자가 원하는 키워드가 표현되지 않았다면 과연 어떻게 찾을까??

그리하여 탄생한 것이 Qrobo 이라고 한다.

검색 엔진 개발에 깊이 참여하고 있는 사람들은 최근 10년 남짓 키워드 기반의 검색엔진에 한계가
있음을 느끼고 있으며, 그렇다고 해서 이것을 뛰어넘는 기술 개발은 아직 많은 시간이 소요된다고 판단하고 있다.
나 또한 검색 엔진 개발만 10년이 넘었지만 쉽지 않은 일임을 잘 알고 있다.

언젠가는 시맨틱스가 지향하고 연구하고 있는 방향은 누군가가 해야할 임에는 분명해 보인다.
그게 1년이 걸리든, 10년이 걸리든...
결국엔 그 방향으로 가야함을 검색 기획자 또한 충분히 동의하는 부분일 것이다.

이런 전제를 놓고 현실의 Qrobo를 보자면 좋은 시도이긴 하나 첫 인상은 실망이다.

일단 시맨틱스가 지향하는 모토는 "사람의 손이 가지 않는 로봇이 만드는 검색엔진"이다.
그래서, 검색 창에 "사람의 손이 가지 않는 로봇이 만드는 검색엔진" 이라고 입력을 해 봤다.

사용자 삽입 이미지



기대감이 컸는지 실망감도 컸었다.
일단, 검색 속도는 둘째 치더라도 결과에 만족스럽지 못하였다.
단, 문서성향 분석은 그나마 위안은 된다.

최근의 검색의 추세는 비쥬얼과 시맨틱에는 의심의 여지가 없어 보이나
문서성향 분석은 이미 오래 전에 나왔던 것들이다.
내부적으로 어떻게 구현했는지 잘은 모르겠으나, 겉으로 보이는 모습은 클러스터링이다.
클러스터링과 무슨 차이가 있는지 내부가 궁금해질 뿐이다.

"Google"이라고 검색을 해봐도 별다른 반응을 주지 못할 뿐이다.
관련 키워드들로 정제되지 않은채 그대로 방치된 듯 전혀 키워드로서의 역할을 하지 못하고 있다.
사용자 삽입 이미지

여기에서 관련 키워드들이라고 제시해 놓은 것들 중에 과연 몇 개나 연관도가 높은지 전혀 모르겠다.
오히려 연관도를 잘 나타내고 있는 러시아의 "퀸투라" 엔진이 훨씬 나아 보인다.
이렇게 의외의 결과를 보여주는 것은 이젠 하나의 페이지조차 하나의 성격을 띄고 있지 않다는 것을 간과하지는 않았나 라는 생각이 물씬 풍긴다.

온톨로지를 사용한다는 것은 단어들간의 관계가 잘 정리가 되어야 한다.
이를 바탕으로 추론을 해야 하나 사람이 추론하는 거와는 정말  비교할 수 없는 결과를 낳고 만다.
또한, 온톨로지를 구축한다는 것은 아직은 Vertical한 성격을 지닐 수 밖에 없다.

아무리 기술이 뛰어나다고 해서 이러한 조건을 컴퓨터가 잘 정리할 수 있을까??
정말 사람이 손도 대지 않고 정리가 잘 될까??

아직은 정말 모체에서 갓 태어난 태아 수준이라고 밖에 말할 수 없다.
이러한 관점에서 보자면 시도를 떠나 아직은 실망스럽고 갓 태어난 내 새끼가 사람처럼 보이지 않듯
좀 더 많은 기술과 지식과 추론이 이루어져야 기는 수준이 될 거 같아 보인다.

그러나, 검색엔진...
영어로 그대로 옮기자면 Search Engine이다. 다른 표현으로는 Information Retrieval이다.
디렉토리 검색이든, 키워드 기반 검색이든 Information을 찾는 것이 아니라, data를 찾고 있다.
그 data에서 좀 더 나은 결과를 보여주기 위해 격렬한 전쟁을 벌이고 있으며 이런 전쟁에서 구글이 승자가 되었다.

앞으로는 Information을 찾아주는 시맨틱웹 검색을 취하는 자가 승자가 될 것이다.

나 또한 이런 시도에 대해서는 대만족이며, 나 또한 온톨로지와 검색엔진과의 결합을 고민하고 있으며
감성 또한 심어 보고자 노력하고 있는 중이다.

앞으로 시맨틱스의 도전과 과정을 지켜보고 싶다.



블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,

검색 대상이 되는 데이터들의 증가 속도는 그야 말로 기하급수적으로 늘어나고 있는 추세이며
데이터의 수는 감히 상상조차 하기 힘든 수치이다.

이에 사용자들의 눈높이는 날이 갈수록 높아지고 있으며
검색엔진은 이 눈높이를 맞춰 나가기가 벅찰 정도가 되어 있다.

그 중 하나인 검색 결과 속도 측면에서만 본다면 수백억건에서 사용자가 원하는 정보를
어떻게 빨리 보여줄 수 있을까??
과연 하드웨어가 뒷받침해 줄 수 있을까??

이런 고민들로 인해 압축 기법도 검색엔진에 도입이 되었고
압축 효율도 좋으면서 decoding도 빠른 압축 기법을 선호하게 된다.

속도랑 압축이 무슨 관계일까?

압축하지 않는 데이터를 disk에 그대로 저장을 한다면
disk i/o에서의 엄청난 bottle neck이 발생할 것이다. 물론 대용량일 경우에 한해서이다.
이 disk i/o를 최소화하여 bottle neck의 요소를 제거하자는 의도에서 압축 기법이 등장하게 된다.

검색엔진에서 사용할 만한 압축 기법을 정리해 보았다.

- byte-aligned compression
- variable byte code compression
- gamma code compression
- word-aligned compression
  * simple-9
  * relative-10
  * carryover-12
    * slide

블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,