Как запретить ChatGPT использовать контент вашего сайта
В среде вебмастеров появилась резонная обеспокоенность по поводу того, как запретить большим языковым моделям (LLM), таким как ChatGPT, использовать контент сайтов для обучения. Способ сделать это есть, но он не очевидный и работает не со 100% гарантией.

А спонсором блога в этом месяце выступает сервис Rookee. Когда требуется комплексное поисковое продвижение, реклама в Telegram или формирование репутации в интернете – на помощь приходят Rookee!
Как ИИ обучается на вашем контенте
Большие языковые модели (LLM) обучаются на данных, которые поступают из различных источников. Многие из этих наборов данных имеют открытый исходный код и свободно используются для обучения ИИ.
Некоторые из таких источников:
- Википедия;
- государственные документы;
- книги;
- электронные письма;
- просканированные веб-сайты.
В интернете существуют порталы и сайты, предлагающие наборы данных, которые предоставляют огромное количество информации. Один из таких порталов хостится на Amazon и предлагает тысячи наборов данных: Registry of Open Data on AWS.

Портал Amazon с тысячами наборов данных – это всего лишь один источник из множества других, содержащих ещё больше наборов данных. В Википедии перечислены 28 таких источников для загрузки наборов данных, включая порталы Google Dataset и Hugging Face, на которых можно найти тысячи датасетов.
Наборы данных веб-контента
OpenWebText
OpenWebText – это одна из популярных баз данных веб-контента. Она состоит из URL-адресов, найденных в сообщениях Reddit, которые имеют не менее трёх голосов (лайков).
Идея заключается в том, что эти URL заслуживают доверия и содержат относительно качественный контент. Я не смог найти информацию про user-agent этого краулера, возможно, он идентифицируется, как Python.
Тем не менее, известно, что если на ваш сайт есть ссылка с Reddit, по крайней мере, с тремя лайками, то велика вероятность того, что ваш сайт есть в наборе данных OpenWebText.
Common Crawl
Один из наиболее часто используемых наборов данных о содержимом интернета предлагается некоммерческой организацией под названием Common Crawl. Данные Common Crawl поступают от бота, который просматривает весь интернет.
Информация загружается компаниями, желающими использовать её, а затем очищаются от спамерских сайтов и тому подобных сущностей.

Имя бота Common Crawl – CCBot. Он подчиняется протоколу robots.txt, поэтому его можно заблокировать с помощью соответствующей директивы и предотвратить попадание данных вашего сайта в очередной датасет.
Если ваш сайт уже был просканирован, то, скорее всего, он уже включён в несколько наборов данных. Однако, блокируя Common Crawl, можно отказаться от включения контента вашего сайта в новые наборы данных в будущем.
CCBot User-Agent:
CCBot/2.0
Добавьте следующие строки в ваш файл robots.txt, чтобы заблокировать бота Common Crawl:
User-agent: CCBot
Disallow: /
Дополнительным способом подтверждения легитимности пользовательского агента CCBot является то, что он осуществляет поиск с IP-адресов Amazon AWS.
CCBot также подчиняется директивам nofollow мета-тега robots.
Используйте следующую конструкцию для мета-тега robots:
<meta name="CCBot" content="noindex nofollow">
Блокировка использования искусственным интеллектом вашего контента
Поисковые системы позволяют веб-сайтам отказаться от участия в краулинге. Common Crawl также позволяет отказаться от этого. Однако в настоящее время не существует способа удалить контент вашего сайта из уже существующих наборов данных.
Более того, учёные-исследователи в принципе не предлагают сейчас вебмастерам возможности отказаться от использования их контента. В связи с этим назревает закономерный вопрос: «Насколько этично использовать, например, ChatGPT, данные веб-сайтов без разрешения или возможности отказаться от этого?»
Думаю, многие вебмастеры будут очень даже не против, если в ближайшем будущем им предоставят больше прав в отношении того, как используется их контент, особенно всевозможными сервисами на основе нейросетей, такими как ChatGPT.
А вы что думаете по этому поводу? Согласны ли отдавать свой контент бесплатно ИИ-инструментам для того, чтобы они на нём обучались, а потом брали со своих пользователей деньги за генерацию аналогов? Делитесь мнениями в комментариях!
СТАТЬИ ИЗ РУБРИКИ:
- 12 причин высокого показателя отказов на вашем сайте (и как это исправить)
- Как начать работать в SEO: путь специалиста-фрилансера
- Google E-E-A-T: как демонстрировать практический опыт для SEO
- Google CALM: проблемы технологий больших языковых моделей
- Собаки и кошки положительно влияют на продажи (исследование)
- Хлебные крошки, как фактор ранжирования в поиске Google (SEO и breadcrumbs)
- Самые популярные поисковые запросы Google 2022 года
- Свежесть контента, как фактор ранжирования в поиске Google
- Пользователи недовольны результатами поисковой выдачи Google (исследование)
- Google Coati – алгоритм поиска, о котором вы никогда не слышали
В интернете есть разные типы информации. Например:
Базовая теория (почему вода синяя, что такое параллелограмм), под которую горе-вебмастеры клепают тысячи бесполезных статейников, действительно есть в Википедии.
А вот полезные практические знания, личный опыт и тому подобная информация – это результаты труда конкретного человека, считай, его интеллектуальная собственность. И вот тут уже большой вопрос, согласишься ли ты отдавать такую информацию на чужие сайты, бесплатно.
А я и не планирую ничего закрывать. =)
Профессиональные дорвейщики наполняли Сеть подобным контентом (“неверным, вводящим в заблуждение, оскорбительным, предвзятым” – как пишет о результатах своего творения сам ChatGPT) годами. И будут продолжать это делать, эксплуатируя алгоритмы поисковых систем и зарабатывая на этом деньги.
Думаю, отчасти и поэтому бот не может выдавать достоверную информацию.
За информацию спасибо! Получается, не зря последние годы пользовалась https://seo-zona.ru/badbot (уминаемый в статье бот отнесен к потенциально бесполезным)