Пожалуй, ни один современный проект в интернете не может обойтись без файла robots.txt на хостинге, так называемого, связующего звена между поисковыми роботами и структурой сайта.
Что такое robots.txt?
Robots.txt – это стандарт исключений для поисковых роботов, ограничивающий доступ к содержимому на сервере, а в последствии индексирование ненужного контента (файлы и папки). Файл публикуется в корневой директории сайта и имеет путь вида “site.ru/robots.txt”.
Прежде всего, перед индексированием, поисковые системы следуют инструкциям, заданным в нашем в файле, что позволяет избавиться от нежелательного содержимого в индексе для достижения более грамотного продвижения в выдаче, а также:
- указать роботам правильное зеркало вашего сайта (c www или без, https или http);
- предоставить ссылку на sitemap (карту сайта);
- добавить ограничение по времени на скорость запросов и сканирования страниц.
Как составить robots.txt для WordPress?
Если вы успели заметить, в интернете полно информации на эту, но на мой взгляд, данные, которые там даны, не совсем верные. В данном примере мы рассмотрим, как правильно составить robots.txt для WordPress и WooCommerce (интернет-магазин на базе WP), актуальный на 2018 год.
Если брать в расчет то, что с недавнего времени поисковые системы хотят получать файлы js и css с вашего сайта, чтобы правильно выстраивать отображение страниц и понимать работу функций, которые видит пользователь, мы добавим необходимые правила.
User-agent: * Disallow: /cgi-bin Disallow: /xmlrpc.php Disallow: /wp- Disallow: */author Disallow: */trackback Disallow: */feed Disallow: */comment Disallow: */comments Disallow: */attachment Disallow: */embed Disallow: *? Disallow: *.inc$ Disallow: *.php$ Disallow: *utm= Disallow: /cart/ Disallow: /checkout/ Disallow: /*add-to-cart=* Allow: */uploads Allow: /*/*.js Allow: /*/*.css Allow: /wp-*.png Allow: /wp-*.jpg Allow: /wp-*.jpeg Allow: /wp-*.gif Allow: /wp-admin/admin-ajax.php Host: https://lospirata.ru Sitemap: https://lospirata.ru/sitemap_index.xml
Здесь мы обращаемся сразу ко всем роботам, что видно по директиве User-agent. Возможно разграничить обращения для каждого из поисковых роботов:
- Google (Googlebot);
- Яндекс (Yandex).
Директивой Disallow мы запрещаем роботу индексировать определенные URL по шаблону и содержимое папок, а директивой Allow, наоробот, разрешаем (к этому относятся изображения, загруженные данные, js и css файлы).
Crawl-delay отвечает за количество секунд, которые роботу надо выждать, между запросами к страницам. Полезно на слабых дешевых хостингах (в большинстве случаев необязательная директива).
Host отображает правильное зеркало сайта во избежании дублей. В конце указываем путь к нашему файлу sitemap со списком страниц нашего сайта для более быстрого индексирования материала.
Мы не стали останавливаться подробно на всех возможностях и правилах, доступных в robots.txt, при желании вы найдете больше информации в интернете, однако, я рекомендую использовать именно этот свод правил. Удачи в продвижении!
3,614 total views, 9 views today
1 комментарий. Оставить новый
Спасибо! Помогло)) теперь на всех сайтах хоть нормальные файлы сделаю)) Вэлкам!