Introduction to Information Retrieval

지은이 : Manning, Raghavan, Schutze
간략 내용2008/06/27 - [IT/검색엔진] - 스탠포드 IR
책정보 보기 : 알라딘 인터넷 서점
PDF
다운받기 : PDF




검색엔진에 대한 경력이 제법 되어간다. 올해가 11년차?
그러나, 머리 속에 든 지식이 별로 없다.
10여년 동안 뭘 했나 싶기도 하다...
우울하다.
그래서, 머리 속에 검색에 대한 지식을 체계적으로 만들어보고자 이 책을 집어들었다.
책을 구입한 때는 2008년 8월...
4개월이 지나고 나서야 처음으로 보기 시작했다.
물론, 개인적으로 중간에 많은 일이 있긴 했지만, 책을 구입하고 4개월 뒤에 본다는 것이
살 때의 설레임으로 처음에 좀 치고 나가야 함에도 불구하고
이제서야 보게 되다니 이 결심이 언제까지 갈지는 모르겠다.

일단, 블로그에 남길려고 하는 것은 이 결심이 빨리 흐트러지지 않게 하기 위함이다.
회사를 다니면서 번역을 하고 요약을 하는 것은 쉽지 않은 일이기에
변명 또한 더 많이 생길 여지도 있고 그렇게 되면 이 또한 대충 훑어보는데도 상당한 시간(3년 이상?)이 소요될 것으로 보이므로 최대한 시간을 당기고 싶은 마음이 절실하기 때문이다.
이렇게라도 밝히고 나면 약간의 의무감(?)으로라도 할 수 있을 거 같기 때문이다.

우선, 원서라서 조금 고민을 했지만, 짧은 영어 실력으로 조금씩 시간나는대로 번역을 해보며
요약을 해서 완전히 나의 것으로 만들려고 한다.
chapter당 2~5건 분량의 글을 남길려고 한다.
워낙 많은 양인데다가 앞서 말한 거처럼 영어 실력이 많이 떨어지기에...
아마 이 책을 번역하고 요약본까지 만드는데 1년 혹은 2년은 족히 걸릴 수도 있겠다.
목표는 1년 안에 어느 정도의 번역본과 요약본을 볼 수 있도록 할려고 한다.
(목표가 클수록 좋다잖아요... ^^)

산출물에 대해서는 올리도록 한다.
상당히 오래도록 고민한 결과다.
사실, 영어 실력도 안 좋은데다가 이걸 번역해서 올린다면 고수님들의 비웃음을 감내할 수 없을 거 같았고, 비록 경력이 11년차이지만 내가 가지고 있는 지식으로 이 책의 내용을 오해하지 않고 제대로 번역할 수 없다면 검색에 대한 초심자나 검색에 대한 개념들이 막 자리잡고 있는 분들이 참고하여 자칫 더 혼란스럽게 하지는 않을까 라는 고민도 많이 했다.

그러나, 이 블로그는 나를 위한 블로그이며 나에 대한 하나의 시험 무대이기도 하다.
이기적으로 내가 우선시 되어야 하기에, 위 분들은 제발 원서를 읽고 나름대로의 개념을 습득하길 기원할 뿐이다.
단, 저의 짧은 영어로 인한 오역한 부분에 대해서는 이 글을 읽으시는 분들이 지적해주시면 저에게 상당히 고마운 일이 될 것이니, 맘껏 지적해주시면 감사하겠습니다.
대신 욕설은 하지 말아주세요. ㅋㅋ

** 목차 **
1. Boolean retrieval
   * Introduction
   * 1.1 An example information retrieval problem
   * 1.2 A first take at building an inverted index
   * 1.3 Processing Boolean queries
   * 1.4 The extended Boolean model versus ranked retrieval
   * 1.5 References and further reading

2. The term vocabulary & postings lists
   * 2.1 Document delineation and character sequence decoding


** 관련 글 **
스탠포드 IR

블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,
그동안 다음 커뮤니케이션(이하 다음컴)의 검색 엔진의 역사는
한메일의 강세를 등에 업고, 투자를 받았던 독일의 기업 제품인 FireBall이라는 제품으로
서비스를 했었죠.
당시에는 n-gram 방식과 디렉토리 검색으로 접근을 했던터라 (아무래도 외산 제품이다 보니)
한국 내에서는 상당히 질이 떨어질 수 밖에 없었고 속도도 굉장히 짜증이 났었던 서비스였습니다.
사용자 삽입 이미지
사용자 삽입 이미지

왜 Fireball에 의존하고 검색엔진 개발에 박차를 가하지 못할까? 라는 의구심이 들게 했습니다.
하긴 다음컴의 탄생은 한메일이였고 검색은 안중에 없었습니다.
인터넷이라는 것이 수 많은 정보에 대한 접근이 시작인데 그걸 간과한 것이고
당장의 안위가 우선이였던 것으로 보입니다. 그런 예로 온라인 우표제가 있었죠.
이로 인해 많은 사용자들을 잃게 되는 아픔이 있어 보입니다.

계약 만료인지 검색에 대한 관심도가 높아진 것인지
오픈베이스는 영국의 잉크토미 검색엔진을 이용해서 네이버와 비슷한 검색 서비스를 시작했습니다.
2001년부터 2003년까지 오픈베이스의 외주로 검색서비스를 시도하였으나,
오픈베이스의 효율적인 운영을 위해 최소의 인원으로 최대의 효과를 얻고 싶어했었구,
또한, 당시 다음컴의 검색관련 인력은 채 20명도 되지 않아 효율적인 검색 서비스가 나오지 않았습니다.

사용자 삽입 이미지

2003년 다음컴은 검색에 대한 중요성을 윗 분들부터 인지함에 따라 본격적인 검색 서비스를
준비하기 위해 검색엔진을 교체하는 동시에 내부에서 자체 개발하기 위한 노력을 보입니다.
야후에서 검색으로 돈을 벌 수 있다는 것을 증명해 보였고,
이 시점에 구글이 무지막지한 성장을 했었구, 국내 인터넷 수성을 위해서라도 준비하지 않으면
안 되었던 것이죠.

이에 치열한 BMT를 통해 다음소프트의 TalkroIR이라는 검색엔진이 낙찰을 받고
본격적인 검색 서비스에 돌입하게 되었습니다.
이 시점에 PV가 네이버에 비해 검색관련 PV가 월등히 차이가 났었습니다.

검색서비스를 시작하면서 내부 인력도 50명으로 늘어났고,
런칭시점에 불안했던 서비스도 차츰 안정을 찾으며 많은 서비스 시도를 했었습니다.
사용자 삽입 이미지

연관검색어 서비스인 서치자키, 검색어 순위, 검색리모콘, 검색섹션 추천공, 와글과 같은 대화엔진과 같은 다양한 경험을 했었고, 나름의 성공을 거두었습니다.
사용자 삽입 이미지

PV에서의 성공이 아니라, 내부적으로 우리(다음컴)도 이제 검색 시장에서 성공할 수 있다는
자신감이 붙게 된 것이죠.
이러한 서비스들이 컨셉이 좋다고 한들 고객들의 꾸준한 사용이 없다면 서비스에서 오래 살아남지 못합니다.
결국, 많은 시도들이 3개월 이내에 사라지게 되는 아픔도 맛 보았습니다.

네이버와의 격차를 줄이기 위해 화면 구성도 2단, 3단으로 바꿔 사용자들의 추이도 지켜 보았고,
차츰차츰 검색 시장에서의 다음 포지션이 상승할 수 있었습니다.

2005년부터 '실시간 급등 검색어", "관련검색어"과 같은 피싱 서비스들이 네이버를 필두로 퍼져
나갔으며 이로 인해 각 업체들은 엄청난 PV와 광고 수입을 얻게 됩니다.

2006년 12월 다음소프트가 계약을 종료하며 검색 관련 기술 이전과 서비스 이전을 통해 빠져나왔고,
다음컴 자체에서 2005년부터 준비해 오던 자체 검색엔진 개발의 결실이 2007년부터 조금씩
서비스에서 모습을 보이기 시작했습니다.

베타 웹검색을 시도했으며, 그로 인해 수정된 사항이 최근에는 카페글로서 승화가 되어
기존 다음소프트 엔진을 서서히 교체하기에 이르렀습니다.
사용자 삽입 이미지
사용자 삽입 이미지

사용자 삽입 이미지

앞으로 다음컴의 검색에 대한 강화는 더욱 더 심화되리라 봅니다.
작년 2007년 9, 10월경에 자체 PV 결과(3,000만을 훨씬 초과)는 2003년에 비해 실로 놀라운 수치를 기록하였습니다.
현재 검색관련 인원도 200명이 되었고, 내부에서도 천대받는 본부가 아니라,
가장 파워있는 본부로 발돋움하게 되었습니다.

이젠 네이버와 대등한 위치에서 싸울 수 있다고 판단했는지 대대적인 공세를 펼치고 있습니다.
2007년엔 자체 검색엔진으로 UCC 검색을 시작을 했으며
검색과 IPTV와의 연계도 고려하고 있으며 검색 결과 화면에 대놓고 심리전을 전개하고 있습니다.
사용자 삽입 이미지

이러한 자신감은 네이버보다 훨씬 우월하다고 판단하는 카페에 있습니다.
단순 질의 응답의 지식IN이 아닌 10년동안 쌓여 있는 카페의 글이 좀 더 양질의 데이터로 판단을
하는 것이고 DB양의 차이도 엄청 나다는 데에 있습니다.
사용자 삽입 이미지
다음컴이 지식인으로 1위 자리를 확보한 네이버의 자리를 다시 뺏어올 수 있을지 흥미롭습니다.
적어도 이젠 다음컴이 쉽게 물러서지 않을 것으로 보이고, 네이버도 수성을 하기 위해
부단히 노력을 할 것입니다.
영원한 승자도 없고, 영원한 패자도 없듯이 향후 1~2년 안에 추세를 결정할 만한 결과를 볼 수
있을 듯합니다.


※ 이 글의 일부분은 조영환 박사님의 華怡價帽가 하늘을 바라보며 블로그를 인용했음을 밝힙니다.
블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,
사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지


사용자 삽입 이미지


2008년 2월에 일본 도쿄에서 활동하고 있는 디자이너 맥 후나미즈가 이름도 붙이지 않고
공개한 상상의 모바일 기기일 뿐이다.
그러나, 개발자의 입장이든 사용자의 입장에서든 상당히 진보적인 아이디어가 아닐 수 없다.
이런 아이디어에 접근하는 편의성에 굉장한 점수를 주고 싶다.
많은 새로운 기술들은 영화 속에 등장하는 아이디어로부터 출발하여
개발되고 상용화되는 순간 현실이 되어버린다.
이 또한 불가능한 일은 아니라고 본다.

TV에 등장하는 각종 아이템을 클릭하는 순간 그 정보를 알아낼 수 있는 시기도 멀지 않았듯이
이 또한 실세계에서 필요한 정보를 모바일 기기를 이용하여 알아내는 것 또한 멀지 않은 것처럼 보인다.
또한 이로 인하여 많은 문제가 발생할 것으로 보인다.
개개인들의 사생활이 노출된다든지, 보안 문제라든지...
그러나, 인터넷이라는 기술도 많은 우려 속에 탄생하여 문제점들을 보완하고 슬기롭게 극복해 나가고 있다.
어떤 것이 탄생할 경우에는 완벽한 것이 없다.
단지 탄생 이후 얼마나 문제를 잘 극복해 나가는냐가 진정한 문제인 것이다.

많은 우려 속에서도 이런 아이디어가 돋보이는 것은
최근 업계의 이슈인 터치 스크린, 실세계, LCD, 3D, 검색이 단연 압도적이며
이 모든 것들을 아우를 수 있는 좋은 아이디어임에는 틀림 없어 보인다.

검색엔진 엔지니어로서 이런 아이디어를 어떻게 이용할 것이며
서비스는 어떤 식으로 발전시킬 수 있을 것인가? 하는 고민이 생긴다.



원문서 URL
http://petitinvention.wordpress.com/2008/02/10/future-of-internet-search-mobile-version/

기사
http://news.naver.com/main/read.nhn?mode=LSD&mid=sec&sid1=105&sid2=&oid=105&aid=0000008243&iid
블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,