검색 대상이 되는 데이터들의 증가 속도는 그야 말로 기하급수적으로 늘어나고 있는 추세이며
데이터의 수는 감히 상상조차 하기 힘든 수치이다.
이에 사용자들의 눈높이는 날이 갈수록 높아지고 있으며
검색엔진은 이 눈높이를 맞춰 나가기가 벅찰 정도가 되어 있다.
그 중 하나인 검색 결과 속도 측면에서만 본다면 수백억건에서 사용자가 원하는 정보를
어떻게 빨리 보여줄 수 있을까??
과연 하드웨어가 뒷받침해 줄 수 있을까??
이런 고민들로 인해 압축 기법도 검색엔진에 도입이 되었고
압축 효율도 좋으면서 decoding도 빠른 압축 기법을 선호하게 된다.
속도랑 압축이 무슨 관계일까?
압축하지 않는 데이터를 disk에 그대로 저장을 한다면
disk i/o에서의 엄청난 bottle neck이 발생할 것이다. 물론 대용량일 경우에 한해서이다.
이 disk i/o를 최소화하여 bottle neck의 요소를 제거하자는 의도에서 압축 기법이 등장하게 된다.
검색엔진에서 사용할 만한 압축 기법을 정리해 보았다.
- byte-aligned compression
- variable byte code compression
- gamma code compression
- word-aligned compression
* simple-9
* relative-10
* carryover-12
* slide
'IT > 검색엔진' 카테고리의 다른 글
확장 불리언 모델 (Extended Boolean Model ) (0) | 2008.07.11 |
---|---|
불리언 모델 (Boolean Model) (0) | 2008.07.10 |
벡터 스페이스 모델 (Vector Space Model, VSM) (1) | 2008.07.09 |
검색 랭킹에 사용되는 용어 정리 (0) | 2008.07.08 |
정보검색 개요 (1) | 2008.04.15 |