Как зарабатывать на скрапинге сайтов и поисковой выдачи
Конкретный пример, как один сайт зарабатывает $50,000 в месяц за счёт скрапинга избранных сниппетов и ответов на часто задаваемые вопросы в Google, размещая чужой контент.
А спонсором блога в этом месяце выступает сервис Rookee. Когда требуется комплексное поисковое продвижение, контекстная реклама на автопилоте или формирование репутации в сети – на помощь приходят Rookee!
Когда, с одной стороны, Google утверждает, что нельзя публиковать автоматически сгенерированный контент, потому что «он плохой», а с другой, видишь в выдаче очередной успешный дорвей, так и хочется заняться чёрным SEO.
Сегодня предлагаю взглянуть на сайт, ежемесячно получавший (до недавнего времени) миллионы посещений из органической поисковой выдачи, и зарабатывавший несколько миллионов рублей.
Но сначала немного теории…
Что такое скрапинг?
Веб-скрапинг (web scraping, скрейпинг или скрепинг) – это технология получения информации, путём извлечения данных со страниц веб-сайтов. Обычно подразумевает автоматизацию, но может выполняться и вручную.
Чем скрапинг отличается от парсинга?
Парсинг – это синтаксический анализ, разбор текста в синтаксическое дерево, в соответствии с формальной грамматикой. Обычная стандартная операция в начале компиляции.
А вот загрузка веб-страницы и попытка извлечь из неё информацию, обычно, из формы, не предназначенной для этого, и в обход API и ограничений (а часто, и правил пользования сайтом) – это веб-скрейпинг.
Пример современного дорвея на скрапинге
Один предприимчивый вебмастер приобрёл дроп (просроченное доменное имя) lisbdnet.com и создал на нём статейник (информационный сайт) на WordPress с простым минималистичным шаблоном.
В качестве наполнения были собраны миллионы вопросов и ответов из спецэлемента Google «People Also Ask» (похожие вопросы). По сути, это контент (украденный) с других сайтов.
Вопросы были сгруппированы по сотням тысяч тем (кластеров). Под каждую тему была создана отдельная страница с десятками вопросов и ответов, оглавлением и блоками похожих статей (перелинковкой).
Каждый вопрос (поисковый запрос) оформлялся в виде подзаголовка H2, а ответ на него – в виде одного абзаца обычного текста.
Таким образом, вебмастер получил сотни тысяч страниц с множеством подзаголовков, которые могут собирать трафик из поисковых систем по огромному количеству низкочастотных запросов.
По главному гео (США) в апреле 2022-го сайт ранжировался в Google почти по миллиону ключей, согласно данным сервиса Serpstat. Учтите, что это далеко не полные данные.
Помимо текста, на страницах проекта присутствуют видеоролики. Владелец использует YouTube API для получения и внедрения 4 лучших видео с Ютуба по каждому из основных поисковых запросов.
Как известно, видео добавляет сайту дополнительную ценность в глазах поисковых систем, улучшая пользовательские факторы, повышая время просмотра страниц, заставляя людей дольше задерживаться внутри проекта.
Согласно данным сервиса Similarweb, дорвей генерировал около 6 миллионов визитов в месяц. 90% трафика приходилось на поисковые системы. 9% – прямые заходы.
Монетизация шла через рекламную платформу Ezoic. Это технологический партнёр Google, который предоставляет доступ к таким инструментам, как AdSense, Media.net, CJ Affiliate, OpenX, Komoona, Index Exchange, Exponential, Criteo и другие.
По приблизительным подсчётам, сайт зарабатывал около 50,000 фунтов стерлингов, или около 4.5 миллионов рублей в месяц. Фактически, на полном пассиве.
Да, судьба этого дорвея, как и многих других его собратьев, привела проект к неминуемому бану и деиндексации в Google. Однако, за время своего существования он смог принести владельцу несколько сотен тысяч долларов.
Как повторить успех lisbdnet.com?
Есть более этичный и элегантный вариант создания аналогичных дорвеев на скрапинге поисковой выдачи. При этом не нужно даже воровать чужой контент.
- Выкачиваем данные из пациента с помощью обычного Python-скрапера.
- Получаем несколько сотен тысяч страниц, заголовков и подзаголовков.
- Организуем полученную информацию в базу данных.
- Для каждого подзаголовка генерируем контент с помощью инструментов машинного обучения, например – Jasper (бывший Jarvis).
- Публикуем в полуавтоматическом режиме около 100 страниц в день (из-за технических ограничений) или около 2,500 страниц в месяц.
- Через год такой работы, наслаждаетесь солидным потоком низкочастотного трафика и начинаете подсчитывать доллары, поступающие на ваш банковский счёт.
Но только не думайте, что это нечто новое и уникальное. Над аналогичными проектами уже давно работают десятки или даже сотни опытных вебмастеров-дорвейщиков по всему миру.
Успехов!
СТАТЬИ ИЗ РУБРИКИ:
- Минусовый слив попандер трафика из Индии на пуши и гемблинг (проверяю кейсы)
- 20 зарубежных каталогов сайтов, которые до сих пор можно использовать для линкбилдинга
- Как дизайн и ссылки главной страницы влияют на ранжирование сайта в поиске [SEO-кейс]
- Осень 2021: ускорение сайтов, вредный скрипт VK, затопление гаража и второй обыск
- Реклама в TikTok или реклама в Instagram Reels: сравнительный кейс на $2000
- Как с помощью опросов убедить клиентов инвестировать в SEO
- Лето 2021: переезд на wpDiscuz, новая квартира, Google Ads и Shop-runail
- Как использование слова «видео» в title может навредить вашему трафику
- Как попасть в топ локального поиска Google в разных городах
- Почему я перевёл свой блог с FeedBurner на follow.it
Тут вы можете даже самостоятельно всё посчитать, при большом желании.
Актуальный средний доход за 1,000 показов в Адсенс по всем странам: $7. По США – $13.
Берём 6 миллионов просмотров, делим на 1,000 и умножаем на 13 (или на 7, чтобы учесть самый пессимистический вариант). Получаем $78,000 (ну или $42,000, во втором варианте).
Ну ничего нового. Доработанные технологии SED от 2007 года или BigDuglas.
Один фиг… Берем снипеты – генерим СДЛ.
По поводу дохода – не факт что такие цифры, на дорах обычно берут 1/5 от нормального дохода. Они не приносят столько же сколько обычные сайты.
Кроме этого не все такие штуки взлетают.
Технически не сложный дорген, ~10 запросов гугла на страницу.
100 страниц в день – 10-20 прокси хороших нужно. Это копейки.
Спам по открытым каталогам и т.д. (вон страничка с подсказками):
https://lisbdnet.tumblr.com/
Обрати внимание на бэк с трастовых площадок, его точно добавил не старый хозяин, например с:
https://angel.co/u/lisbdnet
Кроме этого если погуглить не много, можно легко найти чей был сайт:
https://web.archive.org/web/20190603141256/http://www.lisbdnet.com/about-us/
Короче какой-то Индус писал про ерунду какую-то, но для нас интересен его старый e-mail: ashiklisbd@gmail.com
Если загуглить его, можно получить сеточку из 7 сайтов, которые юзают Webarchive для своих целей:
https://www.google.com/search?q=ashiklisbd%40gmail.com
PS. Так что ничего не пропадает зря…. Ни домены, ни старый контент ни что-то еще.
PS2. Сайт возможно хорошо стартанул, так как он изначально был статейником, который надоел его автору или тот помер… Не много проспама, “хороший контент” и вот и результат. Кстати дорген там более сложный, так как есть различные типы страницы и различные источники….