Краулеры для обучения LLM и AI-скраперы могут долбить ваш сайт, раздувать расходы и забирать ваш контент без согласия. Вот как их распознать и применить политику под ваши цели — блок, троттлинг или допуск с атрибуцией.
Знайте три аудитории
- Заявленные краулеры: боты, которые представляются (и иногда уважают robots.txt). Проверяйте их — многие подделки выдают себя за известный краулер.
- Скрытные скраперы: автоматизация, притворяющаяся обычным браузером, часто через резидентные прокси.
- AI-агенты по запросу пользователя: ассистент, действующий за реального человека в реальном времени.
Шаг 1: robots.txt (необходимо, но недостаточно)
Опубликуйте чёткие правила и запретите пути, на которых не хотите обучения. Добропорядочные краулеры подчиняются — но скраперы игнорируют robots.txt, так что это лишь первый слой.
Шаг 2: проверяйте заявленных краулеров
Для ботов, выдающих себя за известный краулер, подтверждайте через обратный DNS / forward-confirmed rDNS. detectip.ai выполняет эту проверку краулеров и помечает подделки (UA говорит одно, rDNS не подтверждает).
Шаг 3: выявляйте скрытных скраперов
Именно здесь большинство защит проваливаются. Используйте сетевой фингерпринтинг (JA4/QUIC) плюс IP-аналитику, чтобы ловить автоматизацию, которая подделывает User-Agent и ротирует IP — см. как определять AI-агентов и ботов.
Шаг 4: применяйте политику
- Блокируйте абьюзивные, высокообъёмные скраперы.
- Троттлите неизвестную автоматизацию (см. ограничение скорости AI-ботов).
- Пропускайте проверенных партнёров, опционально с отдельной квотой или ценой.
FAQ
Повредит ли блокировка AI-краулеров SEO? Отличайте поисковые краулеры (которые обычно нужны) от обучающих скраперов; проверяйте и относитесь к ним по-разному.
Можно ли монетизировать AI-доступ вместо блокировки? Да — сначала детекция, потом тарификация. Начните с бесплатного ключа.