Программист Дроздовский Михаил
Карта сайта | Форум  

DROZD. / Продукты / Поисковые технологии DROZD

Поисковые технологии DROZD - самый крупный мой проект. В разработку проекта DROZD было вложено много
средств, времени и сил. Это также самая известная разработка DMSG (компании-разработчика, которой я в
настоящий момент руковожу) на западном рынке. Так что же такое DROZD?

1. Технологии индексации. Система DROZD состоит из 2х частей: распределенной системы индексации и
распределенной же системы поиска по базе индекса. Мощность индексатора зависит только от мощности сервера,
на котором его запускают. Запуск индексатора производился на тестовом сервере (вернее, даже на тестовом
компьютере) с процессором Intel Pentium IV 2.4 Ghz, 1024 Mb и объемом жестких дисков на 400 Гб.
Скорость работы индексатора на тестовом сервере составила около 500Mb данных за 20 секунд (со сжатием и
распределением по базе данных).

2. База данных. База данных - одна из ключевых составляющих системы DROZD 1.3 Mainframe . Мы используем
базу данных собственного формата, наиболее приспособленную для создания индекса. Объем базы данных
непосредственно зависит от возможностей сервера, на котором располагается индексатор. Разметка базы данных
и ее структура непосредственно зависят от объема хранимой в ней информации.

3. Низкоуровневые инструменты. В полной комплектации система DROZD 1.3 содержит также низкоуровневые
инструменты работы с индексатором, базой данных и поисковой частью системы. Данные инструменты позволяют
полностью управлять всеми процессами индексации и поиска.

4. Поиск. Поисковая часть системы DROZD 1.3 Mainframe использует много инструментов для построения
качественного списка результата на запрос.
В состав подобных инструментов входят и многоуровневые инструменты оценки релевантности документа
запросу, инструменты рассмотрения гипотез на основе релевантности слов (ищем "веб-технологии", находим
"веб-технологии", "Perl", "PHP", "ASP", "Java", "JavaScript" итд), инструменты сортировки документов в зависимости
от индекса цитируемости документов (мы используем совершенно другие методы, нежели при расчете PageRank,
тИЦ и им подобных индексов, "накрутить" которые очень просто), а также инструменты рассчета взаимной
релевантности самих докуменов (про шинглы еще никто не забыл?). .

 

 


Copyright © 2004 — 2008 Дроздовский Михаил солярии в Омске, солярий оборудование. Заказать кухни:кухни на заказ,кухонные столы рим .. у чувствительных людей аденома железы бывает чаще. бытовки