'Ranked Retrieval Models'에 해당되는 글 1건

첫 번째 Chapter의 마지막 부분입니다.
에구구, 얼마되지도 않는 양인데두 번역을 한다는 것이 만만하지는 않네요..
앞으로 가야할 길은 까마득한데 끝까지 갈 수 있을지 걱정스럽습니다.

1.4 The extended Boolean model versus ranked retrieval

  Boolean 검색 모델은 사용자들이 주로 자유로운 텍스트 쿼리 (free text query)를 사용하는 Vector Space 모델 (Section 6.3)과 같은 랭킹 검색 모델과 대조된다. Vector Space 모델은 즉, 하나 또는 그 이상의 단어를 타이핑하는 것이 쿼리 표현을 만드는 연산자를 가진 정확한 언어를 사용하는 것보다 낫고, 시스템이 쿼리를 최대한 만족하는 문서를 결정한다. 랭킹 검색의 장점에 대한 수 십년간의 학술적인 연구에도 불구하고, Boolean 검색 모델을 구현하고 있는 시스템들이 주를 이루었고, 대규모 상업적 정보 제공자들에 의해 검색 옵션만을 1990년 초반 (대략 World Wide Web의 출현시점)까지 30년동안 제공되었다. 그러나 이러한 시스템들은 지금까지 제공되어진 기본적인 Boolean 연산자들( AND, OR, and NOT)을 제공하지 않았다. 정렬되지 않은 결과 집합을 갖는 term들간의 엄격한 Boolean 표현은 사람들이 필요로 하는 많은 정보를 제한시켰다. 그리하여 이러한 시스템은 근접 연산자와 같은 추가적인 연산자에 의해 확장된 Boolean 검색 모델을 구현하였다. 근접 연산자는 쿼리의 2개의 term들이 하나의 문서에서 서로 가까이 출현해야 한다는 조건을 지정하는 하나의 방법이다. 근접은 단어들간의 존재할 수 있는 단어의 숫자를 제한하거나 문장이나 문단과 같은 구조적인 단위를 참조함으로써 측정되어질 수 있다.

  Example 1.1 영리 목적의 Boolean 검색 : Westlaw. Westlaw(http://www.westlaw.com)은 50만 이상의 유료회원들이 수 십 terabyte 이상의 텍스트 데이터에 대해서 매일 수 백만의 검색을 수행하는 최대 규모의 법률 검색 서비스이다. (유료 회원의 수를 기준으로) 이 서비스는 1975년부터 시작되었고, 자유로운 랭킹 텍스트 쿼리 형식(westlaw에 의하면 Natural Language라 불리움)이 1992년에 추가가 되었음에도 불구하고 2005년에도 Boolean 검색 (Westlaw에 의하면 Terms and Connectors라 불리움)은 여전히 디폴트였고, 대다수의 사용자가 사용하였다. 여기에 Westlaw상의 몇몇 Boolean 쿼리의 예제가 있다.

    Information need : Information on the legal theories involved in preventing the
             disclosure of trade secrets by employees formerly employed by a competing
             company
             (이전에 경쟁회사에 근무하던 고용인에 의한 영업기밀의 폭로에 방지할 수 있는
              법적 이론에 대한 정보)
    Query : "trade secret" /s disclos! /s prevent /s employe!

    Information need : Requirements for disabled people to be able to access a
             workplace.
             (장애인들이 직장에 접근할 수 있도록 하기 위한 요구사항)
    Query : disab! /p access! /s work-site work-place(employment /3 place)

    Information need : Cases about a host's responsibility for drunk guests.
             (취객에 대한 호스트의 응대에 대한 사례)
    Query : host! / p (responsib! Liab!) /p (intoxicat! Drunk!) /p guest

  웹 검색에서 일반적이지 않은 길고 정확한 쿼리와 근접 연산자의 사용에 주의하라. 보내진 쿼리는 평균 길이는 약 10단어이다. 웹 검색의 일반적인 형태와 달리, 단어들간의 스페이스는 분리를 나타낸다. (가장 빡빡한 접합 연산자), &는 AND이고, /s, /p, /k는 같은 문장, 같은 문단 혹은 k 단어 내에서 매칭을 요구하는 것이다. 큰 따옴표(" ")는 문장 검색(연속적인 단어)을 제공한다. Section 2.4(page 36)을 참고하자. 느낌표(!)는 후행 와일드 카드 쿼리를 제공한다. (Section 3.2 page 48를 참조하자). 그러므로 liab!는 liab로 시작하는 모든 단어와 매칭하는 것이다. 게다가 work-site는 worksite, work-site 또는 work site 중 어느 것과 매칭하는 것이다. Section 2.2.1을 보자. 전통적인 전문가 쿼리는 보통 새심하게 정의되어졌고, 점진적으로 그들이 사용자에게 좋은 결과를 보여줄 때까지 개발을 했다.

  많은 사용자들, 특히 전문가들은 Boolean 쿼리 모델을 더 선호한다. 하나의 문서는 쿼리와 매치한다. 그렇지 않다와 같이 Boolean 쿼리는 정확하다. 이것은 무엇이 검색되어지는 것 이상으로 사용자들에게 더 많은 제어와 투명성을 제공한다. 그리고 법적 자료와 같은 몇몇 영역은 Boolean 모델 내에서 효과적인 의미의 문서 랭킹을 인정한다. Westlaw는 실제 꽤 효과적인 최근 연대순으로 문서를 제공한다. 2007년 대부분의 법률 사서는 높은 재현율을 위해 여전히 terms and connector를 추천하는 것처럼 보인다. 그리고 대부분의 법률 사용자들은 그것들을 사용함으로써 더 큰 제어를 획득할 수 있다고 여긴다. 그러나 이것은 전문가 검색을 위해 Boolean 쿼리들이 더 효과적이다라는 걸 의미하지 않는다. 실제적으로 Westlaw의 하부 컬렉션에서 경험함 Turtle(1994)은 경험에 의해 필요한 대다수의 정보에 대해 Westlaw의 레퍼런스 사서들에 의해 준비되어지는 Boolean 쿼리보다 자유로운 텍스트 쿼리(free text queries)가 더 나은 결과를 산출해 내는 것을 알았다. Boolean 검색이 가지는 일반적인 문제는 OR 연산자는 낮은 정확도와 높은 재현율을 제공하는 반면 AND 연산자는 높은 정확도와 낮은 재현율을 산출하는 경향이 있다는 것이다. 그리고 만족스러운 중간 지역을 찾기가 어렵거나 불가능하다.

  이번 chapter에서 우리는 dictionary와 posting list를 포함하는 기본적인 역색인의 구조와 구조물을 보았다. 우리는 Boolean 검색 모델을 소개했고, 선형 시간의 병합을 통해 효과적인 검색을 수행하는 방법과 간단한 쿼리 최적화를 시험했다. Chapter 2-7에서, 우리는 더 많은 쿼리 모델과 효과적으로 다룰 필요가 있는 증가하는 색인 구조의 종류에 대해서 상세히 고려한다. 여기서 우리가 할 수 있는 것들에 대해 몇몇 중요한 추가적인 것들에 대해 말하고자 한다.

1. 우리는 dictionary에서 term의 집합들에 대해 좀 더 나은 선택을 하고자 하고 철자 오류와
   일치하지 않는 단어의 선택에 대해서 관대한 검색을 제공하고자 한다.
2. "Operating system"과 같은 개념을 기술하기 위한 복합어나 구에 대해 종종 검색하는 것이
   유용하다. Westlaw 예제에서 보는 거처럼, 우리는 또한 Gates NEAR Microsoft와 같은
   근접 쿼리를 수행하기를 원한다. 그런 쿼리에 대한 답변은 색인이 문서 내에서 term들의
   근접을 알아내기 위해 늘어나야 한다.
3. Boolean 모델은 단지 term들이 존재하거나 하지 않거나를 기록하지만, 종종 우리는 단지
   한 번만 출현한 문서에 반해 term들이 몇 번 출현한 문서에 좀 더 많은 가중치를 줄 수 있는
   기록을 가지길 원한다.
4. Boolean 쿼리는 단지 매칭하는 문서의 집합을 검색하지만, 일반적으로 우리는 리턴되는
   결과를 정렬화(또는 랭킹화)하는 효과적인 방법을 가지길 원한다. 이런 요구는 문서 점수를
   결정하기 위한 쿼리에 대한 문서를 적절히 매치시키는 캡슐 메커니즘을 가지고 있다.

이러한 추가적인 아이디어를 가지고, 우리는 비정형화된 정보에 대한 Ad-hoc 검색을 지원할 대부분의 기본적인 기술을 보게 될 것이다. 전체 문서의 Ad-hoc 검색은 최근 웹 검색 엔진뿐만 아니라, 대규모 e커머스 웹 사이트에 있는 비정형화된 검색 부류에서도 세계적으로 공략하고 있다. 주요 웹 검색 엔진들은 자유로운 텍스트 쿼리(free text querying)을 강조함에 차이가 있음에도 불구하고 뒤에 나올 chapter에서 보게 될 거처럼 대부분의 기본적인 이슈들과 색인 기술들과 쿼리들은 그대로 유지된다. 게다가 시간이 흐름에 따라 많은 웹 검색 엔진들은 가장 인기있는 확장 Boolean 모델의 연산자들에 대해 부분적인 구현들을 추가하고 있다. 그럼에도 불구하고, 이러한 옵션들은 검색 전문가들이 선호함에도 그들은 대다수에 비해 적게 사용하고 있고, 웹 검색 엔진의 성능을 향상시키기 위한 주요 포커스가 아니다.

Exercise 1.12  Westlaw 구문법을 사용해서 똑같은 문장 내에서 몇몇 단어인 professor, teacher, lecturer 를 찾는 쿼리를 작성하라.

Exercise 1.13  2개의 주요 웹 검색엔진에서 Boolean 검색 특징을 사용해봐라. 예를 들어, burglar와 같은 단어를 선택 후, (i) burglar, (ii) burglar AND burglar, (iii) burglar OR burglar라는 쿼리를 수행하라, 예측되는 결과 수와 이것의 상위 히트수를 봐라. 그것들이 Boolean 논리에 의해 수행되었는가? 종종 그것들은 주요 검색엔진에 없다. 여러분들은 어떻게 수행되었는지 이해를 할 수 있는가? 만약 여러분들이 다른 단어를 사용했다면 어떠한가? 예를 들어, (i) knight, (ii) conquer, (iii) knight OR conquer와 같은 쿼리. 세 번재 쿼리에 비해 첫 2 쿼리에 대한 결과 수의 범위는 어떠한가? 이러한 범위를 인정하는가?

1.5 References and further reading

정보 검색을 전산화하기 위한 실제 연구는 1940년 후반부터 시작되었다. (Cleverdon 1991; Liddy 2005). 전통적인 저널 논설보다는 훨씬 비공식적인 기술 보고서인 과한 문헌의 급증이 컴퓨터의 가용성으로 이어졌고, 자동 문서 검색에 대한 관심을 주도하였다. 그러나, 그 당시에는 문서 검색은 항상 작가, 제목, 키워드들이 기초가 되었다. Full-text 검색은 훨씬 후에 나왔다.
Bush(1945)의 논설은 새로운 영역에 대해서 지속적인 영감을 제공하였다.

    기계화된 개인 파일과 라이브러리와 같은 개인적으로 사용하는 미래의 장치를 고려해보면
    이름이 필요하고 랜덤하게 하나를 창조한다. 'memex'라는 기계가 할 것이다. memex는
    모든 책과 기록, 대화를 개인적으로 저장할 장치이다. 굉장한 속도와 가연성을 지니고
    컨설팅해주기 위해 기계화되어진다. 그의 기억에 대한 친밀한 지원은 확대되어진다.

정보검색이라는 term은 1948/1950년에 Calvin Mooers라는 사람에 의해 만들어졌다. (Mooers 1950).
1958년 많은 신문은 IBM의 H.P.Luhn의 업적에 우선적으로 기초한 "자동 색인(auto-indexing)" 기계 컨퍼런스의 시연에 주목했다. 상업적 관심은 Boolean 검색 시스템에 대해서 재빨리 매혹되었다. 그러나, 초기에 검색 시스템에 대한 여러가지 이질적인 기술 전반에 대한 무모한 논쟁을 보았다. 예를 들어, Mooers(1961)는 의견을 달리했다.

    여러가지 검색 하드웨어에 몇 백만 달러의 투자에 서명했다는 것은 일반적인 잘못된
    생각이다. George Boole(1847)의 대수학은 검색 시스템 설계에 대한 적절한 형식이라는
    이러한 관점은 잘못된 만큼이나 넓게, 무비판적으로 받아들였다.

AND 대 OR은 정확도/재현율 트레이드오프에서 정 반대적인 현상을 보여주나, 절충 영역은 생겨나지 않는다. (Lee and Fox 1988)
(역자주: 트레이드오프(tradeoff). 어느 것을 얻으려면 반드시 다른 것을 희생하여야 하는 관계)

책(et al, 1999)은 역색인과 다른 가능한 데이터 구조체의 공간과 시간 효율성에 있어서의 철저한 경쟁에 대한 표준 레퍼런스이다. 좀 더 간결하고 최신의 발표는 Zobel과 Moffat에서 나왔다(2006). 우리는 향후 Chapter 5에서 몇몇 접근법에 대해 논의한다.

** 이전 글 **
Introduction
1.1 An example information retrieval problem
1.2 A first take at building an inverted index
1.3 Processing Boolean queries

** 다음 글 **
2. The term vocabulary and postings lists (2.1 Document delineation and character sequence decoding)
블로그 이미지

쩐의시대

나답게 살아가고 나답게 살아가자

,