Яндекс - Индексирование
Когда Яndex обнаруживает новую или измененную страницу, он ее
индексирует. В процессе этого страница разбивается на элементы
(текст, заголовки, подписи к картинкам, ссылки и так далее),
содержание которых заносится в индекс. При этом учитываются
позиции слов, то есть их положение в документе или его элементе.
Сам документ в базе не хранится.
Яndex создает очень компактный индекс, что особенно важно для
локальной поисковой машины - Яndex.Site.
Индексирование документов
Правила индексации в машине Яndex
Яndex индексирует страницы по их истинным адресам. Это значит,
что, если на странице стоит redirect, робот воспримет его как
ссылку на новый адрес и внесет ее в очередь на индексирование
(если она удовлетворяет описанным выше правилам). То же самое
произойдет, если в одном из фреймов будет стоять ссылка на
другой сервер. В частности, если эта ссылка находится вне
доменов, разрешенных по умолчанию, страница НЕ будет
проиндексирована. Робот Яndex хранит дату последнего обхода
каждой страницы, дату ее изменения (присланную Web-сервером) и
дату внесения последних изменений в базу поиска (дату
индексации). Он оптимизирует обход Сети таким образом, чтобы
чаще посещать наиболее изменяемые сервера.
Яndex индексирует документ полностью: текст, заголовок, подписи
к картинкам, описание (description), ключевые слова и некоторую
другую информацию.
Как запретить индексацию определенных страниц?
Разрешения и запрещения на индексацию берутся всеми поисковыми
системами из файла robots.txt, находящегося в корневом
каталоге сервера. Запрет на индексацию ряда страниц может
появиться, например, из соображений секретности или из желания
не индексировать одинаковые документы в разных кодировках. Чем
меньше ваш сервер, тем быстрее робот его обойдет. Поэтому
запретите в файле robots.txt все документы, которые не имеет
смысла индексировать (например, файлы статистики или списки
файлов в директориях). Обратите особое внимание на CGI или ISAPI
скрипты - наш робот индексирует их наравне с другими
документами.
В простейшем виде (разрешено все, кроме директории скриптов)
файл robots.txt выглядит следующим образом:
User-Agent: *
Disallow: /cgi-bin/
Детальное описание спецификации файла можно прочитать на
странице:
"Стандарт исключений для роботов".
При написании robots.txt обратите внимание на следующие часто
встречающиеся ошибки:
- Строка с полем User-Agent является обязательной и должна
предшествоватьстрокам с полем Disallow. Так, приведенный ниже
файл robots.txt не запрещает ничего:
Disallow: /cgi-bin
Disallow: /forum
- Пустые строки в файле robots.txt являются значимыми, они
разделяют записи, относящиеся к разным роботам. Например, в
следующем фрагменте файла robots.txt строка "Disallow: /forum"
игнорируется, поскольку перед ней нет строки с полем
User-Agent.
User-Agent: *
Disallow: /cgi-bin
Disallow: /forum
- Строка с полем Disallow может запретить индексирование
документов только с одним префиксом. Для запрета нескольких
префиксов нужно написать несколько строк. Например,
нижеприведенный файл запрещает индексирование документов,
начинающихся с "/cgi-bin /forum", которых, скорее всего, не
существует (а не документов с префиксами "/cgi-bin" и
"/forum").
User-Agent: *
Disallow: /cgi-bin /forum
- В строках с полем Disallow записываются не абсолютные, а
относительные префиксы. То есть файл:
User-Agent: *
Dissalow: www.myhost.ru/cgi-bin
запрещает, например, индексирование документа
http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi, но НЕ
запрещает индексирование документа
http://www.myhost.ru/cgi-bin/counter.cgi
- В строках с полем Disallow указываются именно префиксы, а
не что-нибудь еще. Так, файл:
User-Agent: *
Disallow: *
запрещает индексирование документов, начинающихся с символа
"*" (которых в природе не существует), и сильно отличается от
файла:
User-Agent: *
Disallow: /
который запрещает индексирование всего сайта.
Если вы не можете создать/изменить файл robots.txt, то
еще не все потеряно - достаточно добавить дополнительный тег
META в HTML-код вашей страницы (внутри тега HEAD):
<META NAME="ROBOTS" CONTENT="NOINDEX">
Тогда данный документ также не будет проиндексирован.
Вы также можете использовать тэг
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
Он означает, что робот поисковой машины не должен идти по
ссылкам с данной страницы.
Как выяснить, что Yandex проиндексировал на моем сервере?
Подставьте ваш ресурс в форму на странице
AddURL.
- Если вы получили сообщение, что "Ваш URL __url__ был
только что внесен в нашу базу данных.", это значит, что
ваш URL ранее не был добавлен. Теперь он добавлен и будет
проиндексирован в ближайшее время.
- Если вы получили сообщение "Ваш URL __url__ уже
известен роботу Яndex. Данный ресурс будет проиндексирован в
ближайшее время.", то подождите еще пару дней.
- Если вы получили сообщение "Ваш URL __url__ уже
проиндексирован. Вы можете посмотреть, какие страницы вашего
сайта проиндексированы в Яndex.Ru к настоящему времени",
то, нажав на ссылку со слов "проиндексированы в Яndex.Ru",
вы получите весь список документов вашего ресурса,
проиндексированных в нашей поисковой машине.
|