miralinks.ru

Как запретить ChatGPT использовать контент вашего сайта

Рубрика: Теория и статистика | Время на чтение: 4 мин.

В среде вебмастеров появилась резонная обеспокоенность по поводу того, как запретить большим языковым моделям (LLM), таким как ChatGPT, использовать контент сайтов для обучения. Способ сделать это есть, но он не очевидный и работает не со 100% гарантией.

Как запретить ChatGPT использовать контент вашего сайта

А спонсором блога в этом месяце выступает сервис Rookee. Когда требуется комплексное поисковое продвижение, реклама в Telegram или формирование репутации в интернете – на помощь приходят Rookee!

Как ИИ обучается на вашем контенте

Большие языковые модели (LLM) обучаются на данных, которые поступают из различных источников. Многие из этих наборов данных имеют открытый исходный код и свободно используются для обучения ИИ.

Некоторые из таких источников:

В интернете существуют порталы и сайты, предлагающие наборы данных, которые предоставляют огромное количество информации. Один из таких порталов хостится на Amazon и предлагает тысячи наборов данных: Registry of Open Data on AWS.

Registry of Open Data on AWS

Портал Amazon с тысячами наборов данных – это всего лишь один источник из множества других, содержащих ещё больше наборов данных. В Википедии перечислены 28 таких источников для загрузки наборов данных, включая порталы Google Dataset и Hugging Face, на которых можно найти тысячи датасетов.

Наборы данных веб-контента

OpenWebText

OpenWebText – это одна из популярных баз данных веб-контента. Она состоит из URL-адресов, найденных в сообщениях Reddit, которые имеют не менее трёх голосов (лайков).

Идея заключается в том, что эти URL заслуживают доверия и содержат относительно качественный контент. Я не смог найти информацию про user-agent этого краулера, возможно, он идентифицируется, как Python.

Тем не менее, известно, что если на ваш сайт есть ссылка с Reddit, по крайней мере, с тремя лайками, то велика вероятность того, что ваш сайт есть в наборе данных OpenWebText.

Common Crawl

Один из наиболее часто используемых наборов данных о содержимом интернета предлагается некоммерческой организацией под названием Common Crawl. Данные Common Crawl поступают от бота, который просматривает весь интернет.

Информация загружается компаниями, желающими использовать её, а затем очищаются от спамерских сайтов и тому подобных сущностей.

Common Crawl

Имя бота Common Crawl – CCBot. Он подчиняется протоколу robots.txt, поэтому его можно заблокировать с помощью соответствующей директивы и предотвратить попадание данных вашего сайта в очередной датасет.

Если ваш сайт уже был просканирован, то, скорее всего, он уже включён в несколько наборов данных. Однако, блокируя Common Crawl, можно отказаться от включения контента вашего сайта в новые наборы данных в будущем.

CCBot User-Agent:

CCBot/2.0

Добавьте следующие строки в ваш файл robots.txt, чтобы заблокировать бота Common Crawl:

User-agent: CCBot
Disallow: /

Дополнительным способом подтверждения легитимности пользовательского агента CCBot является то, что он осуществляет поиск с IP-адресов Amazon AWS.

CCBot также подчиняется директивам nofollow мета-тега robots.

Используйте следующую конструкцию для мета-тега robots:

<meta name="CCBot" content="noindex nofollow">

Блокировка использования искусственным интеллектом вашего контента

Поисковые системы позволяют веб-сайтам отказаться от участия в краулинге. Common Crawl также позволяет отказаться от этого. Однако в настоящее время не существует способа удалить контент вашего сайта из уже существующих наборов данных.

Более того, учёные-исследователи в принципе не предлагают сейчас вебмастерам возможности отказаться от использования их контента. В связи с этим назревает закономерный вопрос: «Насколько этично использовать, например, ChatGPT, данные веб-сайтов без разрешения или возможности отказаться от этого?»

Думаю, многие вебмастеры будут очень даже не против, если в ближайшем будущем им предоставят больше прав в отношении того, как используется их контент, особенно всевозможными сервисами на основе нейросетей, такими как ChatGPT.

А вы что думаете по этому поводу? Согласны ли отдавать свой контент бесплатно ИИ-инструментам для того, чтобы они на нём обучались, а потом брали со своих пользователей деньги за генерацию аналогов? Делитесь мнениями в комментариях!

ПОНРАВИЛСЯ ПОСТ? ПОДЕЛИСЬ ССЫЛКОЙ С ДРУЗЬЯМИ!

Получать новые публикации по электронной почте:

СТАТЬИ ИЗ РУБРИКИ:

5 1 голос
Рейтинг статьи
Подписаться
Уведомить о
guest

7 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Дмитрий
Дмитрий
1 год назад

Это же бред, кому нах нужен твои сайт или мой, это капля в море она еичего не решает, там википедия сканируется, тысячи книг, а наши ГС нах не всрались никому, кроме нас!

Аспирант
Аспирант
1 год назад
Ответить на  Дмитрий

В интернете есть разные типы информации. Например:

Базовая теория (почему вода синяя, что такое параллелограмм), под которую горе-вебмастеры клепают тысячи бесполезных статейников, действительно есть в Википедии.

А вот полезные практические знания, личный опыт и тому подобная информация – это результаты труда конкретного человека, считай, его интеллектуальная собственность. И вот тут уже большой вопрос, согласишься ли ты отдавать такую информацию на чужие сайты, бесплатно.

seoonly.ru
1 год назад

ну пусть себе используют)

Аспирант
Аспирант
1 год назад
Ответить на  seoonly.ru

Как скажешь. =)

Владислав
1 год назад

Что за двойные стандарты? Тогда уж и вы не используйте нейросети, если планируете закрывать от них контент. А то блага получать – хочу, а делиться чем-то за эти блага – не хочу. Некрасиво поступаете.

Аспирант
Аспирант
1 год назад
Ответить на  Владислав

А я и не планирую ничего закрывать. =)

Профессиональные дорвейщики наполняли Сеть подобным контентом (“неверным, вводящим в заблуждение, оскорбительным, предвзятым” – как пишет о результатах своего творения сам ChatGPT) годами. И будут продолжать это делать, эксплуатируя алгоритмы поисковых систем и зарабатывая на этом деньги.

Думаю, отчасти и поэтому бот не может выдавать достоверную информацию.

Ельвира
Ельвира
1 год назад

За информацию спасибо! Получается, не зря последние годы пользовалась https://seo-zona.ru/badbot (уминаемый в статье бот отнесен к потенциально бесполезным)

7
0
Оставьте комментарий! Напишите, что думаете по поводу статьи.x