Профессиональный поиск в Интернете

       

Проблема N 3: отклик поисковой системы


Самая захватывающая интрига Сети, которую порождают ИПС, связана с особенностями работы алгоритма, ранжирующего результаты в списке отклика. Эти сведения обычно не предаются широкой огласке, но они крайне необходимы Web-мастерам, продвигающим в суровой кокурентной борьбе свои узлы через поисковые системы Интернета. Попасть в первые несколько десятков записей из списка отклика на ИПС по часто повторяющимся в Сети запросам - значит обеспечить свою доступность для потенциальных клиентов. (см. КомпьютерПресс N 5, с. 114).

Тем не менее и при решении поисковых задач во время работы со списком отклика из-за недостатка информации также могут возникать некоторые проблемы.

В предыдущем выпуске мы говорили о том, что простые тестовые запросы, позволяют с самого начала работы с ИПС понять, насколько широко в индексе представлена искомая информация. Однако не всякая ИПС дает полное число документов, содержащихся в отклике на запрос (например, Lycos, не дает). В какой-то мере это позволяет системе сохранить свое лицо, избежав сравнения с гигантами - Northern Light, AltaVista или HotBot. При решении профессиональных поисковых задач к таким сервисам следует обращаться в последнюю очередь.

Обычно в списке отклика появляется информация, которая включает в себя заголовок страницы, адрес и аннотацию. Аннотация берется либо из специального META-элемента, задаваемого автором документа, либо в ее качестве выступают несколько первых нередактируемых строк текста, взятых со страницы. В некоторых случаях указывается язык документа. Выше мы уже обратили внимание на проколы алгоритма AltaVista, связанные с идентификацией языка, и подобные случаи не редкость и на других ИПС.

Другая обескураживающая неприятность - это возможное отсутствие в найденных документах тех самых ключевых слов, по которым проводился поиск. Причиной подобного явления, если не считать незарегистрированное обновление страницы без изменения адреса, оказывается тот факт, что ключевые слова были заданы автором в специальном поле - элементе META. Оно доступно для сканирования роботом ИПС, но не отображается на странице. В этом случае путем просмотра META-элементов HTML-источника у вас есть возможность убедиться в недобросовестности автора: несоответствие ключевых слов содержанию документа - это прямая дезинформация.

Еще одна проблема вообще неочевидна для единичного пользователя. Речь идет о том, как поисковый сервер обрабатывает запросы в случае, когда их поступает слишком много, т. е. в режиме переполнения. Так, автору статьи не раз приходилось сталкиваться с тем, что, например на AltaVista, при одинаковом и практически одновременном тестовом запросе с 10-15 компьютеров, количество результатов, появляющихся в отклике для каждого пользователя системы иногда может отличаться на десятки тысяч. В действительности, попадая в режим перегрузки, поисковый сервер не имеет большого выбора, а именно: либо он отклоняет запрос, либо обслуживает его по "сокращенному" варианту. Последний вполне может предполагать предоставление лишь части удовлетворяющих запросу данных. Выход очевиден: проверять достоверность отклика ИПС многократно и в разное время суток.



Содержание раздела