В статье рассматривается задача обработки и подготовки дампов русской википедии (http://ru.wikipedia.org/) к использованию в полнотекстовом поиске, и прочее всякое, что можно сделать с крупными дампами.

Полнотекстовый поиск - автоматизированный поиск документов, при котором поиск ведётся не по именам документов, а по их содержимому, всему или существенной части.Сканирование всего содержимого документов в поиске заданного слова и фразы может занимать очень большое количество времени, особенно если пространством поиска является википедия (я не говорю уже про весь интернет, где такой способ вовсе неприменим). Следовательно на основе текстовых данных, по которым будет вестись поиск, необходимо строить индекс, по которому организовывать быстрый поиск. В случае википедии текстовые данные могут быть легко получены из дампов.

Пока речь пойдет о том, где дампы доставать и как их готовить, - маленькая разминочная статья перед будущим циклом, в котором будут рассмотрены основы информационного поиска. На написание вдохновлен курсом “Информационного Поиска” Андрея Калинина, хотя все конечно будет рассмотрено не так подробно, но надеюсь, что выйдет хоть и компактно, но полезно и информативно.

Читать далее

Авторская фотография

Павел Городецкий

       /\       
      /  \      
     /,--.\     
    /< () >\    
   /  `--'  \   
  /          \  
 /   fnord?   \ 
/______________\

hjm

Java-разработчик

Эдем