Google обновил спецификацию файла robots.txt

Google обновил спецификацию файла robots.txt


Документация Google претерпела изменения в ходе перевода Robots Exclusion Protocol (REP) в официальный веб-стандарт.

Главные изменения выглядят так:

  • файл robots.txt стал поддерживать все URI-протоколы;
  • Google отказался от раздела «Язык требований»;
  • для переадресации Гуглбот использует как минимум пять повторений. В случае необнаружения файла robots.txt цикл обращений завершается и присваивается код ошибки 404;
  • неполные данные и неудачные запросы расцениваются поисковиком как ошибка на стороне сервера;
  • в случае отсутствия доступа к robots.txt свыше 30 дней (ошибки 5xx) Google будет использовать последнюю сохраненную в кэше копию файла. Если и к ней доступа нет, это сигнал, что сканировать можно все страницы;
  • поисковая система отказывается распознавать элементы файла с опечатками и/или ошибками (к примеру, «useragent» вместо «user-agent»);
  • максимальный размер файла robots.txt, который способен обработать Google, 500 кибибайт (КиБ).

В обновленной документации Google по robots.txt
также исчезли отсылки к более неактуальной схеме сканирования Ajax. Кроме того, обновлен формальный синтаксис (добавлены символы UTF-8) и определение «групп» (появился пример пустой группы).

P.S.: создаем robots.txt самостоятельно. 



Source link

Об авторе

Оставьте ответ

Мы используем cookie-файлы для наилучшего представления нашего сайта. Продолжая использовать этот сайт, вы соглашаетесь с использованием cookie-файлов.
Принять