Глобальные поисковые машины WWW: тонкая настройка.

После знакомства с несколькими глобальными поисковыми машинами Сети, пользователь, как правило, останавливается на одной-двух, с которыми и предпочитает работать в дальнейшем. На основе каких же мотивов делается такой выбор? Рейтинги популярности поисковых систем по опросам читателей, публикуемые такими известными изданиями как PC Magazine, Internet World и другими, оставляют нелучшее впечатление. Эмоции торжествуют над осознанием реальных возможностей, маркетинговые решения над техническими. Так, каталог Yahoo с легкостью одерживает победу над индексами HotBot и Lycos, Excite и WebCrawler - над AltaVista, а одна из крупнейших поисковых машин Northern Light какое-то время безоговорочно проигрывает почти всем.

Чтобы грамотно распорядиться таким важным поисковым инструментом как автоматический индекс, необходимо учитывать два определяющих аспекта его работы. Первый- это индексирование программой-роботом содержимого Web-страниц. Адрес очередного документа робот узнает либо от автора ресурса, который представил его в систему, либо из гиперссылки, найденной им на уже пройденной странице. Подробнее о проблемах индексирования можно прочитать в КомпьютерПресс, N5'99, c.114. Второй аспект - обработка запросов пользователей по ключевым словам на основе синтаксиса поискового языка системы. Обе эти фазы работы поисковой машины тесно связаны - чем больше информации о ресурсе извлечено при сканировании, тем потенциально шире возможности поиска. Тот факт, что каждая система в обоих случаях имеет свою специфику, может быть использован для тонкой настройки на решение поисковой задачи.

Поскольку индексы сканируют единое информационное поле - WWW, то в них может находиться информация об одних и тех же ресурсах. Однако время, затраченное на получение результата при поиске, может существенно зависеть от выбранной поисковой машины. Кроме того, как будет показано ниже, использование всего одной поисковой системы не дает никаких гарантий по полноте охваченных ресурсов.

Приведем несколько ссылок, которые указывают на страницы, содержащие крупнейшие в Сети перечни поисковых систем

http://dir.yahoo.com/Computers_and_Internet/Internet/World_Wide_Web/Searching_the_Web/Search_Engines/

http://dmoz.org/Computers/Internet/WWW/Search_Engines/

http://www.webtaxi.com/

Некоторые важные для обсуждения характеристики лидирующих поисковых машин, связанные как с фазой индексирования, так и с фазой обработки запросов, представлены в таблице 1.

Поисковая машинаAltaVistaExciteHotBotInfoSeekLycosNorthern LightWeb CrawlerПоказатели индексированияОсобенности поисковых языков

Размер индекса в млн. документов	150	55	110	45	50	140	2
Скорость индексирования, документов в день	10 млн	3 млн	до 10 млн	Нет данных	от 6 до 10 млн	более 3 млн	Нет данных
Время регистрации	1-2 дня	2 недели	2 недели	2 дня	2-3 недели	2-4 недели	2 недели
Полная глубина индексирования	Да	Нет	Да	Нет	Нет	Да	Нет
Полная поддержка фреймов	Да	Нет	Нет	Нет	Нет	Да	Нет
Закрытые паролем узлы	Да	Нет	Да	Нет	Нет	Нет	Нет
Учет частоты обновления	Да	Нет	Нет	Да	Нет	Нет	Нет
Поиск по домену	Да	Нет	Да	Да	Да	Нет	Нет
Поиск по URL	Да	Нет	Нет	Да	Да	Да	Нет
Учет регистра	Да	Нет	Частично	Да	Нет	Частично	Нет
Поиск по заголовку	Да	Нет	Да	Да	Да	Да	Нет
Использование маски "*"	Да	Нет	Да	Нет	Нет	Да	Нет
Поддержка NEAR и его ширина	10 слов	Нет	Нет	Нет	25 слов	Нет	2 слова
Поддержка кириллицы	Да	Нет	Нет	Да	Да	Да	Нет

Таблица 1. Сравнительные показатели глобальных поисковых машин общего назначения. Сетевые адреса поисковых машин строятся на базе их имен по шаблону www.имя.com (двусложные имена пишутся слитно)

Начнем с особенностей индексирования. Большой объем индекса, безусловно, выглядит как разумный аргумент при выборе поисковой системы. Однако он далеко не единственный. Любые начальные сведения о характере информации, служащей предметом поиска, делают задачу выбора более тонкой. Например, если нас интересуют сведения, которые могли поступить в Сеть только за последнюю неделю, то следует предпочесть поисковые машины с высокой скоростью индексирования и минимальным временем регистрации, через которое документ по представлению автора появляется в индексе.

Для ускорения сканирования узла робот поисковой машины может ограничивать глубину его индексирования. WebCrawler, например, вообще сканирует только домашнюю страницу сайта. В результате даже такой крупный индекс как Excite может оказаться непригодным для поиска данных, которые в типичных случаях принято размещать в глубине узла.

Из трех крупнейших конкурирующих индексов AltaVista, Northern Light и HotBot у последнего есть серьезные проблемы со сканированием узлов, содержащих фреймы. Отсюда следует, что при масштабном сборе информации из Сети HotBot во избежание потерь можно использовать только как систему, дополнительную к двум первым.

Нередко разработчики коммерческих узлов закрывают под пароль доступ к материалам сайта. Заинтересованные тем не менее в рекламе, они часто прибегают к возможности открыть доступ к их ресурсам роботам поисковых систем. Из таблицы видно, что только два индекса корректно работают с закрытами узлами.

Таким образом, при поиске информации, которая потенциально является продаваемой, их применение обязательно.

Роботы поисковых систем, сканирующие Сеть, могут увязывать частоту своих повторных посещений уже зарегистрированного узла со скоростью обновления его материалов (AltaVista, InfoSeek). Эта черта полезна при поиске сведений, которым присуще частое обновление, например, новостей.

В нижнем блоке таблицы выделены возможности поисковых языков отдельных систем, которые также допускают специфичное применение.

Так, ключевые слова, входящие в доменное имя узла, сегодня широко используются при поиске всевозможных компаний. Если есть начальные сведения о терминах, которые могут быть включены в названия каталогов или файлов - носителей релевантной информации, то следует использовать поисковые машины, поддерживающие поиск по URL. Даже такая казалось бы незначительная деталь как учет регистра при построении запроса в определенных ситуациях становится крайне полезной. Например, при сборе сведений о Турции (Turkey) системы, которые фиксируют при индексировании регистр каждой буквы слова, позволяют легко избавиться от документов с термином turkey (индюк).

Поиск по заголовку страницы (элемент title) достаточно эффективно применяется, когда разыскиваются организации, особенно с двусложным длинным названием. Односложное название обычно входит в имя домена или в URL как есть, а многосложное формирует аббревиатуру. По домену или URL их легче всего и оказывается локализовать. Название же компании из двух слов, например, American Cybernetics, не позволяет точно угадать имя сервера (ни www.americancybernetics.com, ни www.ac.com не являются верными). Поэтому в синтаксисе AltaVista запрос

title:"American Cybernetics" является наиболее эффективным. Ясно, что лидеры некоторых опросов - поисковые службы Excite или WebCrawler выглядят здесь несостоятельными.

Следует помнить, что одноименные операторы в разных поисковых системах могут иметь неодинаковые свойства. Оператор близости NEAR иллюстрирует этот факт. На запрос типа "термин_1 NEAR термин_2" откликнутся документы, заиндексированные роботами AltaVista, Lycos или WebCrawler, если заданные термины присутствуют в документах в пределах определенной близости друг к другу, неодинаковой для разных систем (см. таблицу). Разницу в интерпретации оператора NEAR можно тонко использовать при поиске.

Еще одно замечание необходимо сделать о возможности "теневой" профилизации глобальных поисковых машин. Чисто технические особенности работы сервиса могут спровоцировать увеличение доли одной тематики информации перед другой. В результате равные по объему индексы могут давать неодинаковый отклик по отдельным запросам, что следует учитывать при планировании поиска. Существует ли такой крен в каждом конкретном случае выясняется с помощью тестовых запросов.

Разумеется, исчерпывающий сравнительный анализ даже всего семи поисковых систем выходит за рамки одной статьи. Более важная задача автору виделась в том, чтобы обозначить общий подход к проблеме выбора поискового инструмента на основе детального анализа его возможностей. Полезно отметить, что обычно поисковые сервера разделяют интерфейс для ввода запросов на "простой" и "расширенный" (advanced, power). Все необходимые для профессиональной работы с системой возможности скрыты в "расширенном" интерфейсе, и именно с него стоит начинать знакомство с любой новой для себя поисковой машиной.

В целом нетрудно видеть, что борьба за глобальное лидерство разворачивается между тремя наиболее крупными поисковыми системами AltaVista, HotBot и Northern Light .

Еще два года назад трудно было себе представить, что первенство AltaVista кто-то сможет оспорить. Казалось бы, что с течением времени соперничать с гигантом становится все труднее.Однако в 1998 году к лидеру заметно приблизился HotBot, а нынешний год отмечен скандальными заявлениями разработчиков Northern Light о том, что индекс этой системы является самым крупным в Сети. Действительно, невероятный скачок индекса Northern Light от 67 млн. документов по данным прошлого года до нынешних 140 млн. говорит о том, что вся борьба еще впереди. Разница в объеме индексов этой тройки при достаточно большом количестве нюансов его определения не настолько значительна, чтобы быть принципиальной. Более важно то, что соперничество систем способствует развитию индивидуальности каждой из них.

AltaVista отличается, пожалуй, самым изысканным и гибким языком запросов, требующим однако специального изучения. Но он того стоит. Посмотрите, например, как изящно выглядит запрос на получение электронных текстов Джека Лондона с какого-либо нерусского сервера.

(url:etext) and text:(Jack near London) and not (text:(city or capital) or domain:ru)

Запрос тут же отсекает нерелевантную информацию о столице Великобритании.

Другая черта AltaVista - это многоязыковая поддержка индекса и возможность перевода в режиме on-line текста Web-страницы c распространенных европейских языков на английский.

HotBot отличает от AltaVista шаблонный и поэтому более простой подход к построению запроса, а также богатый набор фильтров для поиска специфических объектов, таких как ActiveX,VRML, VB Script и других.

Northern Light в этом отношении имеет достаточно стандартный набор функций. Система пытается заработать очки на сопровождении уникальной коллекции ссылок (более 5 тысяч записей) в основном на статьи из периодических изданий. Поддержка индексом кириллицы делает его вместе с AltaVista неплохим дополнением к региональным российским поисковым системам Рамблер, Яндекс и Апорт при русскоязычном поиске.

Сегодня при решении поисковых задач возрастает роль чувствительности поисковых систем к закрытым форматам хранения данных. Речь идет о тех форматах, внутренняя структура которых в отличие, например, от Web-страниц, закрыта от проникновения сканирующих программ. Файлы мультимедиа, заархивированные данные и PDF -файлы могут оказаться ничуть не менее полезными, чем гипертекстовые данные.

Если цель поиска с самого начала связана с одним из таких форматов, то целесообразно использовать глобальные системы с поддержкой соответствующих фильтров (например, Lycos, HotBot) или специализированные системы.

Содержание раздела