Я читал, что поисковый сервер перебирает все правила в robots.txt и останавливается на первом подходящем.
Поэтому, я наивно полагал, что если разместить блок "User-agent: *" в начале файла, его правила будут использоваться в любом случае.
То есть, мой robots.txt выглядел так:
# Общие правила для всех поисковиков: служебные страницы для логина и пр.
User-agent: *
Disallow: /login
Disallow: /signup
...
# Указание на файл с картой сайта
Sitemap: http://{доменное имя}/sitemap.xml
# Дополнительные правила для Google (используя расширенный синтаксис)
User-agent: Googlebot
Disallow: /*/edit$
# То же самое для Yandex
User-agent: Yandex
Disallow: /*/edit$
Однако, случайно я обнаружил, что страница "/login" вполне доступна для индексирования (проверял в инструментах веб-мастера Google и Yandex).
Оказалось, что если в robots.txt есть секция для конкретного поискового севера (например, "User-agent: Yandex"),
этот сервер вообще не обращает внимания на остальные секции, в том числе и на "User-agent: *". Единственное правило, которое они обнаруживают в любом месте,
это "Sitemap:" - он доступен всем и везде не смотря на строки "User-agent:".
[читать дальше]