Что такое robots.txt

Каждому вебмастеру просто необходимо знать, что такое robots.txt. Дело в том, что продвижение сайта — это не только уникальный контент, ссылочная масса, ключевики и прочее. Нужно позаботится и об отсутствии дубля контента. А без этого файла в корне сайта практически у любой CMS будут дублироваться страницы в поиске, что чревато санкциями поисковых механизмов.

И так, robots.txt — это обычный текстовый файл, который содержит команды для поисковых ботов. Он нужен, чтобы отправить бота по правильному пути и не допустить, чтобы поисковый робот копался в ненужных файлах, которые не содержат основного контента (сюда входят и файлы CMS и файлы-дубли). А этих файлов у любой CMS много. Я надеюсь Вы понимаете, что не все абсолютно файлы сайта должны быть в поиске. К примеру у множества страниц WordPress есть дубли контента. Т.е. по разным ссылкам будет одинаковый контент. А этого нельзя допустить. Чтобы поисковые роботы ценили и уважали Ваш сайт, нужно исключить из индексации лишнее. Так вот, чтобы этого не произошло и нужно прописывать в robots.txt правила поведения для поисковых ботов.


Редактируется файл в любом текстовом редакторе. Я бы порекомендовал Notepad++ (о нем я обязательно напишу). Располагать файл с командами следует в корневой директории ресурса. Чаще всего он появляется во время установки многих CMS, но все же его следует дорабатывать и дорабатывать под себя и потребности ресурса.
Мой пример robots Вы можете посмотреть Здесь.
Я потихоньку в свое время допиливал его до идеала читая разные форумы и блоги, проверяя все по многу раз. Не могу на 100% утверждать, что он идеален, но меня на данный момент все устраивает.
Я не стал копировать весь текст, а публикую лишь часть содержания моего роботса:

User-agent: Yandex
Disallow: /wp-admin
Disallow: /tag
Disallow: /category
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /search
Disallow: */trackback/
Disallow: */feed/
Disallow: */feed
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Disallow: /?wp-subscription-manager*
Disallow: */comment
Disallow: */attachment/*
Disallow: */page/*
Allow: /wp-content/uploads/
Host: psscript.ru.ru
Sitemap: http://psscript.ru.ru/sitemap.xml

User-Agent: Yandex — Это означает, что правила ниже написаны только для поискового робота Яндекс.
Disallow — это команда на запрет индексации. Я закрыл от поиска все не нужное.
Allow — «НУЖНО ИНДЕКСИРОВАТЬ»
Host — Адрес сайта
Sitemap — Адрес карты сайта. Тоже необходимый файл для хорошего и правильного индексирования, но об этом в следующий раз.

Вот Вы и узнали, что такое robots.txt и для чего он нужен. Я указал не все команды, а лишь основные и самые необходимые. Изучая более детально и разрабатывая свой роботс, Вы столкнетесь возможно и с другими командами. Заходите снова в блог, читайте, комментируйте статьи и не забывайте делиться ссылками на страницы в социальных сетях. Спасибо.

P.S. Советую почитать о том, как получить хороший хостинг на месяц бесплатно, а далее получить качество за дешево. А заработать на Адвего вы можете по ссылке.

Поделиться ссылкой:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *