Информационно-поисковые системы на примере Рамблера
Категория реферата: Рефераты по информатике, программированию
Теги реферата: первый снег сочинение, мировая экономика
Добавил(а) на сайт: Galiaskarov.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 | Следующая страница реферата
Размещение файла robots.txt
Робот ищет robots.txt только в корневом каталоге сервера. Под именем
сервера здесь понимаются доменное имя и, если он есть, порт. Размещать на
сайте несколько файлов robots.txt, размещать robots.txt в подкаталогах (в
том числе подкаталогах пользователей типа www.hostsite.ru/~user1/)
бессмысленно: "лишние" файлы просто не будут учтены роботом. Таким образом, вся информация о запретах на индексирование подкаталогов сайта должна быть
собрана в едином файле robots.txt в "корне" сайта. Имя robots.txt должно
быть набрано строчными (маленькими) буквами, поскольку имена интернет-
ресурсов (URI) чувствительны к регистру. Ниже приведены примеры правильных
и неправильных размещений robots.txt.
Правильные:
http://www.w3.org/robots.txt
http://w3.org/robots.txt
http://www.w3.org:80/robots.txt
(В данном случае все эти три ссылки ведут на один и тот же файл.)
Неправильные:
http://www.yoursite.ru/publick/robots.txt
http://www.yoursite.ru/~you/robots.txt
http://www.yoursite.ru/Robots.txt
http://www.yoursite.ru/ROBOTS.TXT
Формат файла robots.txt
Пример
Следующий простой файл robots.txt запрещает индексацию всех страниц сайта
всем роботам, кроме робота Рамблера, которому, наоборот, разрешена
индексация всех страниц сайта.
# Инструкции для всех роботов
User-agent: *
Disallow: /
# Инструкции для робота Рамблера
User-agent: StackRambler
Disallow:
Группы инструкций для отдельных роботов: User-agent
Любой файл robots.txt состоит из групп инструкций. Каждая из них
начинается со строки User-agent, указывающей, к каким роботам относятся
следующие за ней инструкции Disallow.
Для каждого робота пишется своя группа инструкций. Это означает, что робот
может быть упомянут только в одной строке User-agent, и в каждой строке
User-agent может быть упомянут только один робот.
Исключение составляет строка User-agent: *. Она означает, что следующие за ней Disallow относятся ко всем роботам, кроме тех, для которых есть свои строки User-agent.
Инструкции: Disallow
В каждой группе, вводимой строкой User-agent, должна быть хотя бы одна инструкция Disallow. Количество инструкций Disallow не ограничено.
Строка "Disallow: /dir" запрещает посещение всех страниц сервера, полное имя которых (от корня сервера) начинается с "/dir". Например:
"/dir.html", "/dir/index.html", "/directory.html".
Чтобы запрещать посещение именно каталога "/dir", инструкция должна
иметь вид: "Disallow: /dir/". Для того, чтобы инструкция что-либо
запрещала, указанный в ней путь должен начинаться с "/". Соответственно, инструкция "Disallow:" не запрещает ничего, то есть все разрешает.
Внимание: точно так же и инструкции "Disallow: *", "Disallow: *.doc",
"Disallow: /dir/*.doc" не запрещают ничего, поскольку файлов, имя которых
начинается со звездочки или содержит ее, не существует! Использование
регулярных выражений в строках Disallow, равно как и в файле robots.txt
вообще, не предусмотрено.
К сожалению, инструкций Allow в файлах robots.txt не бывает. Поэтому
даже если закрытых для индексирования документов очень много, все равно
придется перечислять именно их, а не немногочисленные "открытые" документы.
Надо продумать структуру сайта, чтобы закрытые для индексирования документы
были собраны по возможности в одном месте.
Рекомендуем скачать другие рефераты по теме: скачать реферат по истории, скачать шпаргалки по праву.
Предыдущая страница реферата | 1 2 3 4 5 6 7 8 | Следующая страница реферата