Как LLM-боты сканируют сайты? Главные сигналы для ChatGPT, Gemini и других систем

 
ChatGPT, Perplexity, Gemini и другие LLMs уже сегодня конкурируют с Google, но у них нет единого стандарта. Каждый бот кроулит по-своему, интерпретирует страницы иначе и предъявляет собственные требования к технической оптимизации.

Важно понимать как именно GenAI-системы видят сайты IT компаний и какие сигналы они используют для ранжирования.

***

Готов наш авторский репорт-инструкция по LLM-маркетингу для IT компаний 2025: как генерировать лиды из ChatGPT, Perplexity, Google AI Overviews (76 страниц со скринами и видео-инструкциями). Запросить тут или напрямую у [email protected]

Как LLM-боты сканируют сайты? Главные сигналы для ChatGPT, Gemini и других систем

Как LLM-боты сканируют сайты?

В отличие от традиционного Google-бота, LLM-боты ведут себя иначе.

Googlebot эффективный и быстрый. Он умеет парсить сложный контент, обрабатывать редиректы и не тратит время на лишние действия. Например, мобильная версия Googlebot уже давно оптимизирована под то, как большинство пользователей взаимодействуют с сайтом.

А вот боты LLM, такие как ChatGPT или Gemini, могут быть менее эффективными.

ChatGPT фокусируется на HTML и хоть и уважает robots.txt, его активность в сканировании может быть на 300% выше, чем у других ботов.

Gemini, в свою очередь, использует инфраструктуру Google, но работает медленно и “осторожно”, чтобы не перегружать сайт.

Как боты относятся к robots.txt?

Robots.txt для большинства ботов это первый документ, который они смотрят.

Правда, некоторые LLM боты действуют хитро. Они подделывают свой паспорт – так называемый User-Agent – строку, по которой сайт определяет, кто его посетил. В итоге такой бот маскируется под обычный браузер и продолжает сканировать страницы, даже если в robots.txt стоит запрет.

Perplexity неоднократно обвинялся в обходе стандартов web-этикета, таких как robots.txt. Когда его официальные краулеры блокировались, система переходила в скрытый режим.

Cloudflare, одна из крупнейших интернет-инфраструктур, обнаружила, что Perplexity сначала представляется как PerplexityBot или Perplexity-User. Но когда блокировка срабатывала, он менял User-Agent на обычный, похожий на Chrome на macOS, и продолжал краулить с разных IP-адресов и даже через разные автономные системы, чтобы обойти ограничения.

В результате Cloudflare удалила Perplexity из своего списка проверенных ботов и внедрила новые правила для блокировки таких “скрытых” краулеров.

Как JavaScript влияет на видимость для GenAI?

Одна из самых больших проблем для LLM-ботов это JavaScript.

В отличие от Googlebot, который отлично справляется с рендерингом JavaScript, многие LLM-боты этого не делают. Это значит, что критически важный контент, такой как навигационные ссылки, заголовки h1 или ключевые тексты, которые подгружаются с помощью JavaScript, могут быть для них невидимыми.

UX-мелочи тоже становятся барьерами. Перекрывающиеся кнопки или слишком мелкие мешают не только людям, но и краулерам. Если интерфейс слишком сложный, GenAI-агенты прекращают попытки и уходят дальше.

Недавние наблюдения показали, что Google Search требует включения JavaScript для рендеринга, а OpenAI, казалось бы, не делает этого.

Однако, согласно отчетам The Information, было подтверждено, что OpenAI использует сторонние сервисы, такие как SerpApi, для скрейпинга данных из результатов поиска Google.

Это означает, что даже такие крупные системы, как OpenAI, ищут способы получить доступ к актуальной информации, пусть и через посредников, которые уже обработали контент, включая JavaScript.

Это подчёркивает, что проблемы с рендерингом JavaScript это не просто теоретическая проблема, а реальная угроза для видимости сайта в экосистеме GenAI. Если критический контент подгружается через JavaScript, он может быть недоступен для прямых сканеров, и придеться полагаться на то, что кто-то другой его обработает и передаст дальше.

Как решать проблемы с JavaScript?

Чтобы избежать проблем с AI-агентами, которые могут показаться агрессивными, стоит придерживаться правил.

1) Согласование с разработчиками

Всегда обсуждайте сканирование сайта с разработчиками и администраторами. Убедитесь, что инфраструктура сайта может выдержать нагрузку.

2) Контроль скорости сканирования

Рекомендуемая скорость около 10 запросов в минуту. Это позволяет не перегружать сервер и дает ботам время на обработку информации.

3) Мониторинг

Постоянно следите за активностью ботов, чтобы выявить потенциальные проблемы. Если бот начинает “стрелять” по сайту с тысячами запросов, это может быть признаком неэффективного или даже вредоносного сканирования.

Как Core Web Vitals и UX-факторы влияют на GenAI?

Ответ прост: они критически важны.

Core Web Vitals (CWV) это набор метрик, разработанный Google для измерения пользовательского опыта на сайте. Они фокусируются на трёх ключевых аспектах: скорости загрузки, интерактивности и визуальной стабильности.

Largest Contentful Paint (LCP): Измеряет время, необходимое для загрузки самого большого элемента на странице. Чем быстрее LCP, тем быстрее пользователь увидит основной контент.

First Input Delay (FID): Определяет время от первого взаимодействия пользователя (клик, тап) до момента, когда браузер может ответить на это действие. Низкий FID означает, что сайт отзывчив.

Cumulative Layout Shift (CLS): Измеряет, насколько сильно элементы на странице “прыгают” или смещаются во время загрузки. Низкий CLS говорит о стабильности макета.

Как скорость и интерактивность влияют на GenAI? 

LLM-краулеры не ждут. Они нетерпеливы.

Если ваш сайт медленный, и им приходится ждать, пока контент загрузится или кнопки станут активными, они просто уйдут.

Чем больше сложностей вы добавляете на сайт, тем меньше вероятность, что AI-агент сможет успешно прочитать нужную информацию.

Как стабильность и предсказуемость влияют на GenAI? 

Боты не любят движущиеся части или “бомбы” внезапно появляющиеся элементы. Они предпочитают стабильный контент.

Это означает, что метрика CLS (Cumulative Layout Shift), которая измеряет нестабильность макета, напрямую влияет на то, как боты воспринимают ваш сайт.

Если на странице происходит смещение, AI-агент может потерять контекст и неверно извлечь данные.

Как мобильный UX влияет на GenAI? 

Такие факторы, как перекрывающиеся “tap targets” (области нажатия) на мобильной версии, могут снизить сканируемость и видимость. Если элемент на мобильной версии сайта плохо спроектирован, боты могут с трудом с ним взаимодействовать, что делает их неспособными надёжно собирать данные.

📍 Отправить заявку на LLM-маркетинг репорт от Kraftblick

0 0 голоса
Рейтинг статьи
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии

    Свежие статьи