Работаем с robots.txt

SEO: Софт и информация

Основы SEO - статьи о Контенте

Human Emulator - автоматизатор ваших действий в браузере

Работаем с robots.txt

Иногда, бывает необходимо скрыть от поисковых ботов те или иные страницы, находящиеся на сайте. К примеру, у вас имеется конфиденциальная информация, доступная только для ваших посетителей или же определенная часть страниц не нуждается в индексации, т.к. представлена в динамическом виде. Причин, по которым администратору сайта иногда приходится скрывать различные элементы от индексации, не так уж и мало.

При решении такой проблемы можно воспользоваться файлом robot.txt.

Стандарт этого файла существует с 1996 года и, мягко выражаясь, устарел. Но, несмотря на это, им можно и даже нужно пользоваться. Разумеется, вы не защитите свой сайт от "невежливых" ботов, например тех, которые воруют контент и делают прочие пакости, но от некоторых роботов все же убережетесь.

Итак. Создаем файл robot.txt и приступаем к закрытию наших каталогов и страничек.

Имена самых известных ботов, пишутся так: Googlebot, StackRambler, msnbot, Aport, Yahoo! Slurp (соответственно, это боты Гугла, Рамблера, MSN, Апорта и Yahoo!).

С ботом Яндекса дела обстоят более запутанно, но основной индексирующий бот, это Yandex/1.01.001 (compatible; Win16; I). Более точная информация по конкретным ботам может быть найдена в сети за считанные минуты.

Сам файл robots.txt состоит из раздельных записей, где первая -указывает имя бота и пишется так:

User-agent:

после же двоеточия вписывается имя бота.

Вторая строка - это команда, запрещающая или разрешающая совершать этому боту определенные действия.

Допустим, мы хотим боту гугла запретить лазить по директории books. В этом случае, строка будет выглядеть следующим образом:

Disallow:/books/

Полностью запись, касающаяся директивы в отношении бота гугла, должна отображаться в таком виде:

User-agent:Googlebot
Disallow:/books/

Можно запретить боту индексировать определенные файлы в том или ином каталоге.

Для этого в Disallow: мы вписываем имя директории, а затем первые символы, с которых начинаются наши файлы.

Заметим, что удобное и всем привычное *. и расширение файла, в стандарте robots.txt запрещено.

Следовательно, наш запрет будет выглядеть так:

User-agent:Googlebot
Disallow:/books/op

(Все файлы, которые находятся в директории books и начинаются с букв "op" будут исключены из индексации гугловским ботом).
Иногда, может потребоваться запретить индексировать все, что находится на сайте и, причем, всем ботам сразу. Делается это тоже просто:

User-agent: *
Disallow: /

Звездочка, указывает, что это правило относится ко всем возможным ботам, а слеш после Disallow: - это блокирование всех директорий и файлов, находящихся на сервере.

обсудить на форуме
другие статьи для начинающих вебмастеров

Похожие статьи:

вопросы построения HTML - разбор ньансов правильного построения html страниц сайта

На каких элементах страницы размещать ключевые слова ?
Как правильно использовать фреймы
техническая сторона организации сайта - статьи, освящающие техническую сторону эксплуатации сайта

Создание файла robots.txt
Работаем с robots.txt
Создание иконки сайта (favicon)
Пару слов о 404 ошибке
Использование ошибки 503
Причины возникновения ошибки 503 и их решение
Использование 301 редиректа
Upload Хосты или где хранить тяжеловесный контент
Что такое CMS - небольшой ликбез.Часть1.
Что такое CMS.Часть2.
Что лучше-платная или бесплатная CMS
Достоинства и недостатки популярных CMS
Создание сайта на vBulletin: достоинства и недостатки
Создание сайта на Drupal: достоинства и недостатки
Что такое CSS
Составляющие юзабилити сайта
Как устроены ссылки
Статья про pligg
Создание мобильной версии сайта
Как писать техническое задание на изготовление сайта
динамический контент - статьи, освещающие вопросы, связанные с использованием динамического контента на сайте

Что такое Web 2.0
Что такое скрипт
Хорошо ли иметь динамический контент
Флэш - технологии для создания сайтов, плюсы и минусы
Как получать комментарии к стaтьям
Как защищать свои форумы от спама
Что такое RSS и как им поьзоваться
Про использование развернутого RSS-фида
Полезные знания про RSS-часть1
Сервисы по рекомендации музыки

Human Emulator - автоматизатор ваших действий в браузере






	Полезное
	Автоматизация Браузера
	Cкрипты для Бизнеса
	Скрипты сбора данных
	Купить рабочие прокси
	SEO Магазин
	Базы ключевых слов



	Содержание
	Кратко
	Основы SEO
	Терминология SEO
	О Доменах
	О Хостинге
	О Контенте
	О Трафике
	Продвижение сайта
	Теория
	Практика
	Продвижение блога
	Как заработать
	Adsense
	Контекстная реклама
	Покупка ссылок
	Покупка контента
	Партнерские программы
	Другой Манимейк
	Все статьи

	SEO Софт
	SEO Справочная

	Обсуждения
	Услуги и сервисы
	Блог по сайту

	Сервис
	Новости сайта
	Карта сайта
	Поиск по сайту
	Контакт с нами

Copyright © since 2006 bigfozzy.com All Right Reserved.

Отсюда вполне легально можно брать статьи, пожалуйста, с указанием ссылки на источник :-)
(ссылка на тематический ресурс будет и вам полезна и нам будет приятно)