|
DROZD.
/ Продукты / Поисковые
технологии DROZD
Поисковые технологии
DROZD - самый крупный мой проект. В разработку проекта DROZD было
вложено много
средств, времени и сил. Это также самая известная разработка DMSG
(компании-разработчика, которой я в
настоящий момент руковожу) на западном рынке. Так что же такое DROZD?
1. Технологии
индексации. Система DROZD состоит из 2х частей: распределенной
системы индексации и
распределенной же системы поиска по базе индекса. Мощность индексатора
зависит только от мощности сервера,
на котором его запускают. Запуск индексатора производился на тестовом
сервере (вернее, даже на тестовом
компьютере) с процессором Intel Pentium IV 2.4 Ghz, 1024 Mb и объемом
жестких дисков на 400 Гб.
Скорость работы индексатора на тестовом сервере составила около
500Mb данных за 20 секунд (со сжатием и
распределением по базе данных).
2. База данных.
База данных - одна из ключевых составляющих системы DROZD 1.3 Mainframe
. Мы используем
базу данных собственного формата, наиболее приспособленную для создания
индекса. Объем базы данных
непосредственно зависит от возможностей сервера, на котором располагается
индексатор. Разметка базы данных
и ее структура непосредственно зависят от объема хранимой в ней
информации.
3. Низкоуровневые
инструменты. В полной комплектации система DROZD 1.3 содержит
также низкоуровневые
инструменты работы с индексатором, базой данных и поисковой частью
системы. Данные инструменты позволяют
полностью управлять всеми процессами индексации и поиска.
4. Поиск.
Поисковая часть системы DROZD 1.3 Mainframe использует много инструментов
для построения
качественного списка результата на запрос.
В состав подобных инструментов входят и многоуровневые инструменты
оценки релевантности документа
запросу, инструменты рассмотрения гипотез на основе релевантности
слов (ищем "веб-технологии", находим
"веб-технологии", "Perl", "PHP", "ASP",
"Java", "JavaScript" итд), инструменты сортировки
документов в зависимости
от индекса цитируемости документов (мы используем совершенно другие
методы, нежели при расчете PageRank,
тИЦ и им подобных индексов, "накрутить" которые очень
просто), а также инструменты рассчета взаимной
релевантности самих докуменов (про шинглы еще никто не забыл?).
.
|