Как зарабатывать на веб-скрейпинге в 2024

Как зарабатывать на веб-скрейпинге в 2024
Интервью с Пьерлуиджи Винчигерра, сооснователем и техническим директором Databoutique

— Какие данные наиболее востребованы в 2023-2024 годах? Какие типы, темы, категории датасетов наиболее популярны?

Сложно сказать, так как несмотря на то, что веб-скрейпинг приобретает все большую популярность параллельно с последними разработками в области ИИ и больших языковых моделей, которые в значительной степени зависят от него, он все еще далек от массового применения.

Одним из наиболее распространенных сценариев использования веб-скрейпинга является сравнение цен и изучение рынка: каждая компания хотела бы знать, где и по какой цене продаются их продукты и как ведут себя их конкуренты.

Другой ценной информацией являются цифры инвентарных запасов, скрытые на некоторых веб-сайтах. Представьте, что вы можете наблюдать за компанией, ежедневно собирая данные об ассортименте в их магазинах и на складах: таким образом вы можете легко оценить их доходы, лучшие продукты и т. д. Это требует точного и надежного сбора данных, но, как вы понимаете, это золотая жила.

Помимо этого, у нас есть геоданные: Airbnb, отели, недвижимость. Они могут помочь понять экономические тенденции в конкретных странах или городах, если собирать их в течение длительного периода.

— Какие существуют способы заработка на веб-скрейпинге на сегодняшний день? Кем могут быть потенциальные покупатели, и какими платформами и торговыми площадками можно воспользоваться?

Я вижу три невзаимоисключающих способа заработать на веб-скрейпинге.

Первый и самый очевидный — это выполнение заказов на фрилансе, причем это можно рассматривать и как основную работу.

Во-вторых, вы можете продавать свой код на таких площадках, как Apify Store, где вы продаете свой код, а люди могут запускать его на платформе Apify и получать результаты.

Наконец, вы можете продавать наборы данных, полученные вашим скрейпером, на Databoutique.com. Это новая площадка для торговли данными, полученными с помощью веб-скрейпинга. Мы открылись всего лишь несколько месяцев тому назад и сейчас работаем над привлечением трафика на платформу, одновременно запуская новые функции каждую неделю — так что, к сожалению, пока вы не разбогатеете за один день.
Наша идея довольно проста и заключается в следующем: до сегодняшнего дня веб-скрейпинг был скорее похожим на пошив на заказ: это дорого, это сделано специально под вас, и продавцу будет сложно продать то же самое другому покупателю.

Мы же хотим вместо этого продавать рубашки H&M: стандартные датасеты, которые удовлетворяют основные потребности покупателя, проверены на качество, но по более низкой цене.
Подумайте об этом: даже если у вас есть SaaS-решение, которое зависит от данных, полученных веб-скрейпингом (так что теоретически сервис одинаков для всех), вам все равно всегда будут нужны новые сайты для скрейпинга для новых клиентов, а это сделает ваше решение дорогим, уменьшая количество потенциальных клиентов. Но также верно и то, что если эти сайты новые для меня, то наверняка уже есть кто-то другой, кто уже их скрейпит.

Поэтому мы создали маркетплейс данных, на котором люди, уже занимающиеся скрейпингом, могут загружать свои наборы данных (при условии их соответствия правилам), заранее адаптированные определенным образом. То есть мы создаем огромный каталог датасетов, которые, поскольку они стандартизированы и проверены на качество, могут быть объединены с другими наборами данных от других поставщиков, что увеличивает шансы на покупку этих данных. И чем чаще набор данных покупается, тем меньше он может стоить, поскольку затраты на извлечение данных остаются теми же, а чем меньше он стоит, тем больше покупателей он привлечет, что поможет в деле дальнейшего распространения веб-скрейпинга.

— Что входит в арсенал инструментов для веб-скрейпинга? Какое программное обеспечение и какие сервисы эффективны для сбора данных?

За 10 лет, что я занимаюсь веб-скрейпингом, многое изменилось: сегодня набор инструментов веб-скрейпера довольно разнообразен. Прежде всего, вам понадобится фреймворк для веб-скрейпинга, например, Scrapy на питоне, для всех веб-сайтов, на которых не установлены антибот-системы.

Затем, по мере роста вашего бизнеса, вам понадобится один или несколько прокси-провайдеров.

Кроме того, по мере усложнения задач вам понадобится инструмент для автоматизации браузера, например, Playwright, Puppeteer или Selenium.

И, наконец, что не менее важно: для веб-сайтов с защитными системами, которые в значительной степени работают на основе фингерпринтинга, вам понадобится антидетект-браузер — например, Octo — чтобы имитировать поведение реального пользователя.

В прослойках между этими макрослоями существует множество инструментов, применяемых для решения конкретных задач, таких как идентификация TLS или движения мыши, имитирующие человека.

— Какими будут самые серьезные технические вызовы для веб-скрейпинга в 2024 году? Столкнется ли веб-скрейпинг с новыми вызовами из-за нейросетей и ИИ?

Самый большой технический вызов по-прежнему связан с обходом антиботов. Существует все больше и больше изощренных методов блокировки ботов, но, к счастью, у нас тоже появляется все больше инструментов для конкурентной борьбы с этими системами. Я не думаю, что нейросети и ИИ создадут серьезные проблемы; более того, они могут помочь с написанием кода. На сегодняшний день мы видим, как на рынок выходят продукты, работающие на основе ИИ, как для автоматического анализа HTML, так и для обхода антиботов.

— Какие сайты являются наиболее сложными для скрейпинга? И что насчет защитных систем, которые особенно трудно обойти?

Самыми сложными для скрейпинга являются, как правило, сайты, на которых продаются дефицитные товары (например, сумки и кроссовки Hermes, билеты и т.д.). В этих случаях обычно недостаточно наличия качественного браузерного фингерпринта; скрейперу также нужно вести себя как человек: например, кликать по разным элементам, а не переходить по страницам, используя прямой URL, и так далее. Обычно на таких сайтах вас блокируют даже за то, что вы их просто листаете и делаете что-то странное, например, очень быстро кликаете по элементам сайта.

— Существуют ли какие-либо юридические аспекты, которые должны учитывать веб-скрейперы? Могли бы вы прокомментировать недавнее дело Meta против Bright Data и то, повлияет ли оно на восприятие и правовой статус веб-скрейпинга?

Я не юрист, поэтому если у читателей есть какие-либо сомнения относительно их действий, лучше обратиться к настоящему юристу. Тем не менее, есть несколько золотых правил для безопасного скрейпинга:
  • не собирайте личную информацию;
  • не собирайте информацию, защищенную копирайтом, особенно если вы планируете перепродавать ее без изменений;
  • не собирайте данные, доступные только после авторизации или недоступные публично;
  • не вредите бизнесу целевого сайта.

Что касается дела Meta против Bright Data, его решение крайне специфично для этого случая и условий пользовательского соглашения Meta, поэтому я не стал бы делать обобщения на его основе. Но факт в том, что веб-скрейпинг, когда он выполняется этично и с уважением к целевому сайту, является абсолютно законной практикой и не должен рассматриваться как что-то, находящееся в серой зоне. Это такой же инструмент, как, например, и молоток: его можно использовать как во благо, например, для строительства дома, так и во вред, например, для разбивания стекол припаркованных автомобилей. Тот, кто использует инструмент, должен понимать, что можно делать, а что нельзя.

— Есть ли место, где можно узнать о веб-скрейпинге больше и пообщаться с вовлеченным сообществом?

Спасибо за этот вопрос, теперь я могу, не стесняясь, сам себя порекламировать. Почти 2 года назад я запустил свою рассылку о веб-скрейпинге под названием The Web Scraping Club. Я пишу о своем опыте веб-скрейпинга, инструментах, которые я тестирую, о том, как обходить антиботы, и так далее.

Идея пришла ко мне, потому что я не смог найти место, где можно было бы узнать, что делать на практике, когда нужно обойти конкретный антибот. По этой причине я начал делиться своими заметками, и теперь у меня уже более 2400 подписчиков.
Есть и другие отличные блоги для тех, кто хочет узнать больше о том, что происходит под капотом антиботов: Trickster.dev, botting.rocks, webscraping.wiki.

Похожие статьи
Присоединяйтесь к Octo Browser сейчас
Вы можете обращаться за помощью к нашим специалистам службы поддержки в чате в любое время.