Рекомендации по индексации страниц сайта. Читайте в журнале Tradesoft (Трейдсофт).
Нам 21 год! Теперь можно всё Получить скидку
К списку

Рекомендации по индексации сайтов

31
января
2014

В настоящее время в Интернете действуют несколько роботов поисковых систем, занимающихся индексацией сайтов. Среди них актуальными для России можно выделить: Яндекс, Google, Mail.ru, Ростелеком, bing.

Для более эффективной индексация Вашего сайта без потери в его работоспособности, а также лучшей отказоустойчивости веб-служб сервера сайта мы рекомендуем следовать следующим рекомендациям:

  1. Создайте в корневой директории сайта файл robots.txt (http://robotstxt.org.ru/), который задает правила индексации Вашего сайта для поисковых роботов;
  2. Пропишите интервал между запросами (директива Crawl-delay ), установите для этого параметра значение не менее 3-х (секунд). Установка меньших значений не желательна, так как одновременно Ваш сайт могут индексировать роботы нескольких поисковых систем, что может привести к нестабильной работе сайта.
  3. Закройте от индексации страницы поиска по коду (проценку), так как поисковые запросы достаточно ресурсоёмкие и выполняются довольно продолжительное время. Частые поисковые запросы могут затруднить работу сайта. Для индексации вместо поиска по коду рациональнее создавать страницы со списками имеющейся у Вас номенклатуры. При разумном подходе такие страницы с постоянным содержанием будут содержать больше данных для поисковых систем, а их индексация меньше скажется на работоспособности сайта.
  4. Закройте от индексации административную часть системы: это уменьшит количество ошибок при индексации, так как доступ к страницам административной части требует авторизации.
  5. Закройте от индексации общедоступные страницы сайта, открытие которых длится более 3-х секунд (например, создаваемые через доработки). Либо создайте для таких страниц особые правила индексирования (например, для роботов можно выводить упрощенную версию страницы или увеличить период их индексации параметром «Crawl-delay»).

Характерной чертой роботов является то, что их поведение нетипично для поведения человека: они могут порождать очень большое количество запросов к сайту в единицу времени и, тем самым, влиять на скорость работы сайта в целом. В крайних случаях - даже приводить к сбоям веб-служб сервера. К сожалению, у поисковых систем нет регламента общения с администраторами серверов и хостингов. Единственная возможность взаимодействия с ними - через файл robots.txt и инструменты веб-мастера конкретного сервиса. В связи с этим, чтобы обеспечить стабильную работу сайтов при размещении на общих (т.е. не выделенных под отдельный проект) серверах в Веб-АвтоРесурсе предусмотрена система временного блокирования конкретного IP-адреса для доступа к сайту. В случае превышения заданного количества запросов к сайту (или определенной его странице) IP-адресу, с которого поступали такие запросы, некоторое время будет выдаваться страница с ошибкой «Доступ запрещен» или страница ручного снятия блокировки вводом кода с картинки (CAPCHA).

На серверах, выделенных под отдельный проект, данные ограничения могут быть убраны или смягчены. Однако работоспособность сайта при интенсивной индексации в этом случае не гарантируется.

Пример содержания файла robots.txt:

User-agent: *
Crawl-delay: 5
Disallow: /search*
Disallow: /admin/