Как запретить ChatGPT использовать контент вашего сайта

Рубрика: Теория и статистика | Время на чтение: 4 мин.

В среде вебмастеров появилась резонная обеспокоенность по поводу того, как запретить большим языковым моделям (LLM), таким как ChatGPT, использовать контент сайтов для обучения. Способ сделать это есть, но он не очевидный и работает не со 100% гарантией.

Как запретить ChatGPT использовать контент вашего сайта

А спонсором блога в этом месяце выступает сервис Rookee. Когда требуется комплексное поисковое продвижение, реклама в Telegram или формирование репутации в интернете – на помощь приходят Rookee!

Оглавление

Как ИИ обучается на вашем контенте

Большие языковые модели (LLM) обучаются на данных, которые поступают из различных источников. Многие из этих наборов данных имеют открытый исходный код и свободно используются для обучения ИИ.

Некоторые из таких источников:

Википедия;
государственные документы;
книги;
электронные письма;
просканированные веб-сайты.

В интернете существуют порталы и сайты, предлагающие наборы данных, которые предоставляют огромное количество информации. Один из таких порталов хостится на Amazon и предлагает тысячи наборов данных: Registry of Open Data on AWS.

Портал Amazon с тысячами наборов данных – это всего лишь один источник из множества других, содержащих ещё больше наборов данных. В Википедии перечислены 28 таких источников для загрузки наборов данных, включая порталы Google Dataset и Hugging Face, на которых можно найти тысячи датасетов.

Наборы данных веб-контента

OpenWebText

OpenWebText – это одна из популярных баз данных веб-контента. Она состоит из URL-адресов, найденных в сообщениях Reddit, которые имеют не менее трёх голосов (лайков).

Идея заключается в том, что эти URL заслуживают доверия и содержат относительно качественный контент. Я не смог найти информацию про user-agent этого краулера, возможно, он идентифицируется, как Python.

Тем не менее, известно, что если на ваш сайт есть ссылка с Reddit, по крайней мере, с тремя лайками, то велика вероятность того, что ваш сайт есть в наборе данных OpenWebText.

Common Crawl

Один из наиболее часто используемых наборов данных о содержимом интернета предлагается некоммерческой организацией под названием Common Crawl. Данные Common Crawl поступают от бота, который просматривает весь интернет.

Информация загружается компаниями, желающими использовать её, а затем очищаются от спамерских сайтов и тому подобных сущностей.

Имя бота Common Crawl – CCBot. Он подчиняется протоколу robots.txt, поэтому его можно заблокировать с помощью соответствующей директивы и предотвратить попадание данных вашего сайта в очередной датасет.

Если ваш сайт уже был просканирован, то, скорее всего, он уже включён в несколько наборов данных. Однако, блокируя Common Crawl, можно отказаться от включения контента вашего сайта в новые наборы данных в будущем.

CCBot User-Agent:

CCBot/2.0

Добавьте следующие строки в ваш файл robots.txt, чтобы заблокировать бота Common Crawl:

User-agent: CCBot
Disallow: /

Дополнительным способом подтверждения легитимности пользовательского агента CCBot является то, что он осуществляет поиск с IP-адресов Amazon AWS.

CCBot также подчиняется директивам nofollow мета-тега robots.

Используйте следующую конструкцию для мета-тега robots:

<meta name="CCBot" content="noindex nofollow">

Блокировка использования искусственным интеллектом вашего контента

Поисковые системы позволяют веб-сайтам отказаться от участия в краулинге. Common Crawl также позволяет отказаться от этого. Однако в настоящее время не существует способа удалить контент вашего сайта из уже существующих наборов данных.

Более того, учёные-исследователи в принципе не предлагают сейчас вебмастерам возможности отказаться от использования их контента. В связи с этим назревает закономерный вопрос: «Насколько этично использовать, например, ChatGPT, данные веб-сайтов без разрешения или возможности отказаться от этого?»

Думаю, многие вебмастеры будут очень даже не против, если в ближайшем будущем им предоставят больше прав в отношении того, как используется их контент, особенно всевозможными сервисами на основе нейросетей, такими как ChatGPT.

А вы что думаете по этому поводу? Согласны ли отдавать свой контент бесплатно ИИ-инструментам для того, чтобы они на нём обучались, а потом брали со своих пользователей деньги за генерацию аналогов? Делитесь мнениями в комментариях!

Об авторе
Недавние публикации

SEO-aspirant

SEO-специалист в Блог SEO-аспиранта

Меня зовут Виктор, я – автор этого блога. Занимаюсь интернет-маркетингом (SEO, SMM, CPA) профессионально с 2008 года.

SEO-aspirant недавно публиковал (посмотреть все)

ПОНРАВИЛСЯ ПОСТ? ПОДПИСЫВАЙСЯ НА МОЙ ТЕЛЕГРАМ! ТАМ ЕЩЁ БОЛЬШЕ ИНТРЕСНОГО КОНТЕНТА!

СТАТЬИ ИЗ РУБРИКИ:

Тематика: SEM, Кодинг

Дата публикации: 03.02.2023

Комментарии и Отзывы

(некоторые ответы перед публикацией проверяются модератором)

5 1 голос

Рейтинг статьи

7 комментариев

Старые

Новые Популярные

Дмитрий

3 лет назад

Это же бред, кому нах нужен твои сайт или мой, это капля в море она еичего не решает, там википедия сканируется, тысячи книг, а наши ГС нах не всрались никому, кроме нас!

Ответить

Аспирант

3 лет назад

Ответить на Дмитрий

В интернете есть разные типы информации. Например:

Базовая теория (почему вода синяя, что такое параллелограмм), под которую горе-вебмастеры клепают тысячи бесполезных статейников, действительно есть в Википедии.

А вот полезные практические знания, личный опыт и тому подобная информация – это результаты труда конкретного человека, считай, его интеллектуальная собственность. И вот тут уже большой вопрос, согласишься ли ты отдавать такую информацию на чужие сайты, бесплатно.

Ответить

seoonly.ru

3 лет назад

ну пусть себе используют)

Ответить

Аспирант

3 лет назад

Ответить на seoonly.ru

Как скажешь. =)

Ответить

Владислав

3 лет назад

Что за двойные стандарты? Тогда уж и вы не используйте нейросети, если планируете закрывать от них контент. А то блага получать — хочу, а делиться чем-то за эти блага — не хочу. Некрасиво поступаете.

Ответить

Аспирант

3 лет назад

Ответить на Владислав

А я и не планирую ничего закрывать. =)

Профессиональные дорвейщики наполняли Сеть подобным контентом («неверным, вводящим в заблуждение, оскорбительным, предвзятым» – как пишет о результатах своего творения сам ChatGPT) годами. И будут продолжать это делать, эксплуатируя алгоритмы поисковых систем и зарабатывая на этом деньги.

Думаю, отчасти и поэтому бот не может выдавать достоверную информацию.

Ответить

Ельвира

3 лет назад

За информацию спасибо! Получается, не зря последние годы пользовалась https://seo-zona.ru/badbot (уминаемый в статье бот отнесен к потенциально бесполезным)

Ответить