Добавить ссылку в рекламную цепочку за 0.1 руб.
Список всех ссылок в рекламной цепочке
Добавить баннер 468х60 за 0.01 руб. в сутки
Меню сайта




Статистика проекта

Дата открытия: 11.09.2014г.


Дата на сервере: 02.10.2023г.

Время на сервере: 18:32


Сайтов в базе: 255 шт.

Сайтов просмотрено: 898322


Жалобы на сайты: 0 шт.



проверка сайта

Витрина ссылок



Новости SEO на retab.ru

12.07.2019Google обновляет правила для robots.txt


Поисковые краулеры сканируют любой сайт согласно правилам, которые прописаны в файле robots.txt.

Правила прописываются на основе протокола Robots Exclusion Protocol.

Google внес изменения в данный протокол. Например, теперь не поддерживается директива noindex.


Поисковые оптимизаторы создают директивы для поисковых краулеров согласно правилам протокола Robots Exclusion Protocol.

Такие директивы прописываются в файле robots.txt.

На протяжении 25 лет протокол REP являлся важным инструментом для поисковых оптимизаторов, так как позволял запрещать различным роботам доступ к некоторым страницам сайта.

Итак, используя директивы в файле robots.txt можно отсечь часть различных роботов, что приводит к снижению нагрузки на сайт.

Как результат, у пользователей сайт открывается быстрее.

Еще уменьшаются расходы на поддержку пропускного канала.

Поисковые системы такие как Yandex, Bing и Google следовали правилам из robots.txt.

Но протокол не был закреплен на официальном уровне.

Утверждает такие протоколы на официальном уровне организация под названием Internet Engineering Task Force.

Так как стандарт не был закреплен, то и правила обработки были не всегда понятными для всех.

Google решил задокументировать протокол REP и направил стандарт в соответствующую организацию на рассмотрение и регистрацию.


Такие действия призваны решить ряд целей:


Расширить базу функциональных возможностей, чтобы можно было задавать более точные правила.

Определить четкие стандарты, чтобы избежать различных спорных сценариев по использованию.

В результате все причинно-следственные связи по использованию файла robots должны стать ясными для всех.


Список из наиболее существенных изменений:


Теперь директивы можно использовать для любого URI.

Например, теперь помимо HTTP/HTTPS правила можно применять к FTP или CoAP.

Поисковые краулеры должны сканировать первые 512 килобайт файла.

Роботы могут, но не обязаны сканировать весь файл если файл большой.

Также роботы не обязаны сканировать весь файл, если соединение не стабильное.

Размещенные в файле директивы подлежат кешированию.

Делается так, чтобы не нагружать сервер запросами.

По умолчанию кеширование проводится на срок не более чем 24 часа, чтобы дать возможность поисковому оптимизатору в приемлемые сроки обновлять файл.

Значение по кешированию можно задавать самостоятельно используя директиву кеширования посредством заголовка Cache-Control.

Если файл не доступен, то директивы продолжают работать.

Спецификация предусматривает, что если файл robots.txt стал не доступен для поискового краулера, то правила описанные ранее будут продолжать действовать еще на протяжении длительного времени.


Далее были пересмотрены директивы, которые допускаются к использованию в файле robots.txt.

Правила, которые не опубликованы в стандарте, не будут поддерживаться Google.

В результате правило noindex больше не будет поддерживаться Google.


Поддержка отключается с 1 сентября 2019 года.


Выводы.


25 лет директивы robots.txt использовались де-факто, но не были зафиксированы как стандарт.

Теперь стандарт будет создан, а значит появится официальная документация и будет снята неопределенность по нюансам.

Например, теперь определен оптимальный размер файла — до 512 килобайт.

Если размер файла превышает пороговое значение, то директивы после 512 килобайт не учитываются.

Теперь протокол Robots Exclusion Protocol станет стандартом для интернета.


Вариант в виде черновика — Robots Exclusion Protocol.

Google больше не станет поддерживать директиву noindex, если ее использовать в файле robots.txt.

Для запрета индексации используйте заголовок или специальный мета-тег.

Новые сайты до запуска следует закрывать от индексации на уровне сервера.

Если сайт переведен на HTTPS, следует провести проверку на предмет доступности файла robots.txt по протоколу HTTPS.

Если сайт переведен на HTTPS, но файл robots.txt доступен только по HTTP, то директивы для HTTPS страниц сайта действовать не будут.


Если говорить о практике, то в сухом остатке список действий следующий:


Удалить из файла robots.txt директивы noindex.

Разместить noindex в заголовке X-Robots-Tag или мета-теге с значением content="noindex".

Если файл превышает 512 килобайт, то уменьшить размер файла за счет использование масок.

Удалить из файла директивы на запрет индексации CSS и JavaScript файлов.

Если требуется убрать страницу из индекса и запретить индексацию, следует использовать 404 или 410 код ответа.

Задать время кеширования файла через Cache-Control.



Все новости





Заработок в сети

Заработок в сети
Заработок в сети может быть разнообразным и зависеть от ваших навыков и интересов.
  • Дата: 07 августа 2023