Правильный robots.txt для WordPress и WooCommerce

Содержание

Что такое robots.txt?
Как составить robots.txt для WordPress?

Пожалуй, ни один современный проект в интернете не может обойтись без файла robots.txt на хостинге, так называемого, связующего звена между поисковыми роботами и структурой сайта.

Что такое robots.txt?

Robots.txt – это стандарт исключений для поисковых роботов, ограничивающий доступ к содержимому на сервере, а в последствии индексирование ненужного контента (файлы и папки). Файл публикуется в корневой директории сайта и имеет путь вида “site.ru/robots.txt”.

Прежде всего, перед индексированием, поисковые системы следуют инструкциям, заданным в нашем в файле, что позволяет избавиться от нежелательного содержимого в индексе для достижения более грамотного продвижения в выдаче, а также:

указать роботам правильное зеркало вашего сайта (c www или без, https или http);
предоставить ссылку на sitemap (карту сайта);
добавить ограничение по времени на скорость запросов и сканирования страниц.

Как составить robots.txt для WordPress?

Если вы успели заметить, в интернете полно информации на эту, но на мой взгляд, данные, которые там даны, не совсем верные. В данном примере мы рассмотрим, как правильно составить robots.txt для WordPress и WooCommerce (интернет-магазин на базе WP), актуальный на 2018 год.

Если брать в расчет то, что с недавнего времени поисковые системы хотят получать файлы js и css с вашего сайта, чтобы правильно выстраивать отображение страниц и понимать работу функций, которые видит пользователь, мы добавим необходимые правила.

User-agent: *
Disallow: /cgi-bin
Disallow: /xmlrpc.php
Disallow: /wp-
Disallow: */author
Disallow: */trackback
Disallow: */feed
Disallow: */comment
Disallow: */comments
Disallow: */attachment
Disallow: */embed
Disallow: *?
Disallow: *.inc$
Disallow: *.php$
Disallow: *utm=
Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

Host: https://lospirata.ru
Sitemap: https://lospirata.ru/sitemap_index.xml

Здесь мы обращаемся сразу ко всем роботам, что видно по директиве User-agent. Возможно разграничить обращения для каждого из поисковых роботов:

Google (Googlebot);
Яндекс (Yandex).

Директивой Disallow мы запрещаем роботу индексировать определенные URL по шаблону и содержимое папок, а директивой Allow, наоробот, разрешаем (к этому относятся изображения, загруженные данные, js и css файлы).

Crawl-delay отвечает за количество секунд, которые роботу надо выждать, между запросами к страницам. Полезно на слабых дешевых хостингах (в большинстве случаев необязательная директива).

Host отображает правильное зеркало сайта во избежании дублей. В конце указываем путь к нашему файлу sitemap со списком страниц нашего сайта для более быстрого индексирования материала.

Мы не стали останавливаться подробно на всех возможностях и правилах, доступных в robots.txt, при желании вы найдете больше информации в интернете, однако, я рекомендую использовать именно этот свод правил. Удачи в продвижении!

7,181 total views, 2 views today