Продвижение Web-узла через регистрацию в поисковых системах Интернета




Инструменты, позволяющие управлять индексированием


На сегодняшний день разработчик Web-узла располагает скромным арсеналом технических средств, которые позволяют управлять роботами поисковых машин, занятых индексированием. Основных инструментов всего два: размещение файла со специальным именем robots.txt в корневом каталоге сервера и применение meta-тэгов в контейнере "HEAD" отдельного документа.

Файл robots.txt содержит набор команд, которые позволяют закрыть от индексирования отдельные каталоги узла. Обычно закрываются каталоги, содержащие скрипты, служебную информацию и т.п. Отчасти это повышает контрастность значимых документов узла в поисковой системе. К тому же поисковые машины нередко вводят ограничение на число ресурсов, регистрируемых для одного хоста. Некоторые роботы, как это имело место, например, для робота Lycos'а, вообще не проводят индексирования, если указанный файл отсутствует.

Итак, если вы поддерживате работу сервера с доменным именем www.your_name.com , то содержимое файла robots.txt должно быть доступно по URL http://www.your_name.com/robots.txt.

Подробное описание стандарта исключений и синтаксиса команд файла robots.txt вместе с другой полезной информацией о роботах, можно найти на WebCrawler'е по адресу http://info.webcrawler.com/mak/projects/robots/robots.html

Вместо строго изложения этого материала, приведем пример, который позволит сделать все необходимое, по крайней мере, для типичных ситуаций.

Файл robots.txt должен содержать одну или несколько записей, разделенных пустыми строками:

Пример 1:

# robots.txt for http://www.your_name.com

User-agent: *

Disallow: /cgi-bin/lex/ /tmp/ /css/ /pictures/

User-agent: scooter

Disallow:

Каждая запись должна содержать переменные User-agent и Disallow. User-agent задает оригинальное имя программы-робота соответствующей поисковой системы, для которого предназначена информация.

Позже появилась возможность перечислить несколько имен роботов через пробел. Disallow указывает на перечень закрываемых каталогов. В примере символ # предваряет строку комментария. Символ * является маской и означает "для всех роботов". Первая строка Disallow запрещает индексирование четырех каталогов. Затем роботу Scooter c поисковой системы AltaVista для доступа открываются все каталоги (поле Disallow пусто). Напротив, при необходимости закрыть все каталоги следовало бы написать "Disallow: /"

Файл robots.txt поддерживается практически всеми роботами, однако корневой каталог сервера может быть вам не доступен. В этом случае для аналогичных целей, но уже в пределах только одного документа, можно использовать специальные тэги META. МЕТА-тэги решают не только проблему запрета, но предоставляют и позитивные возможности для управления индексированием. С их помощью автор может самостоятельно задать набор ключевых слов и дать краткое описание своего ресурса.

Для демонстрации этих возможностей прибегнем к комплексному примеру HTML-кода документа.

Пример 2.




Содержание  Назад  Вперед