Como ganhar dinheiro com web scraping em 2024?

Como ganhar dinheiro com web scraping em 2024?
Entrevista com Pierluigi Vinciguerra, Databoutique

Quais são os dados mais procurados em 2023/2024? Quais tipos/temas/categorias de conjuntos de dados são os mais populares?

É difícil dizer, já que o web scraping, embora esteja se tornando mais comum desde os últimos desenvolvimentos em IA e LLMs, que dependem muito dele, ainda está longe da adoção em massa.

Um dos casos de uso mais comuns para web scraping é a comparação de preços e inteligência de mercado: toda empresa gostaria de saber onde seus produtos são vendidos e a que preço, e como seus concorrentes estão se comportando.

Outra informação valiosa vem dos níveis de inventário ocultos em alguns sites. Imagine poder monitorar uma empresa coletando diariamente os níveis de inventário em suas lojas ou depósitos: ao fazer isso, você pode facilmente estimar suas receitas, identificar os melhores produtos e muito mais. Isso requer uma coleta de dados precisa, mas, como você pode imaginar, é uma mina de ouro.

Por último, mas não menos importante, temos todos os dados de localização: Airbnb, hotéis, imóveis. Eles podem descrever a tendência econômica de um país ou cidade se coletados por um longo período.

Quais são algumas maneiras de ganhar dinheiro com o web scraping hoje? Quem seriam os possíveis compradores e quais são as plataformas ou mercados disponíveis?

Vejo três maneiras de ganhar dinheiro com web scraping e elas não são mutuamente exclusivas.

A primeira e mais óbvia é fazendo alguns trabalhos como freelancer. Você poderia encarar como seu trabalho convencional.

Então, você pode comercializar seu código em plataformas como a Apify Store, onde essencialmente você pode disponibilizar seu código (conhecido como Actor) para que as pessoas o executem na plataforma Apify e obtenham os resultados desejados.

Por último, mas não menos importante, você pode vender o conjunto de dados resultante do seu scraper na Databoutique.com. Esse é um novo mercado de dados coletados da web, que abrimos há alguns meses e estamos trabalhando para trazer mais tráfego para a plataforma enquanto lançamos novos recursos toda semana. Então, infelizmente, por enquanto, você não ficará rico da noite para o dia.

A ideia por trás disso é bastante simples: até hoje, o web scraping parece mais um terno feito sob medida: é caro, é feito para você e o vendedor terá muitas dificuldades em vendê-lo para outro comprador.

Nós queríamos vender a camisa da H&M: conjuntos de dados padrão que atendam às necessidades básicas do comprador, verificados quanto à qualidade, mas a um preço mais baixo.

Considere o seguinte: mesmo que você tenha um SaaS que dependa de dados coletados da web, teoricamente, o serviço é o mesmo para todos. No entanto, você continuará precisando de novos sites para coletar para atender aos novos clientes, o que pode tornar sua solução cara e reduzir o número de clientes em potencial. Mas também é verdade que, se esses sites são novos para mim, com certeza há alguém que já está coletando seus dados.

O que fizemos foi criar um mercado de dados onde pessoas que já estão coletando dados de alguns sites podem fazer upload de seus conjuntos de dados (se estiverem em conformidade com as regras), adaptados a determinados esquemas de dados predefinidos. Dessa forma, estamos construindo um catálogo enorme de conjuntos de dados, que, como são padronizados e verificados quanto à qualidade, podem ser combinados com os conjuntos de dados de outros provedores, aumentando as chances de serem comprados. E, quanto mais um conjunto de dados for comprado, menos ele poderia custar, já que os custos de extração são os mesmos e, quanto menos custar, mais compradores ele atrairá, gerando um ciclo positivo para a adoção em massa do web scraping.

Você poderia fornecer algumas informações sobre os lucros médios dos vendedores na Databoutique? Apenas para entender a escala.

Começamos há alguns meses e temos cerca de 300 pessoas na plataforma entre compradores e vendedores. Estamos trabalhando para iniciar o ciclo mencionado antes, então, no momento, as vendas não são tão relevantes.

O que está incluído nas ferramentas de trabalho do web scraper? Quais softwares e serviços seriam eficazes na coleta de dados?

As coisas mudaram muito desde quando comecei a fazer web scraping há 10 anos: hoje, as ferramentas de trabalho de um web scraper são bastante variadas. Em primeiro lugar, você precisará de um framework de web scraping, como o Scrapy em Python, para todos os sites que não tenham nenhum antibot instalado.

Depois, você precisará de um ou mais provedores de proxy, à medida que suas operações começarem a escalar.

Além disso, você precisará de uma ferramenta de automação de navegador, como o Playwright, Puppeteer ou Selenium, quando as coisas começarem a ficar complicadas.
Por último, mas não menos importante, para sites com proteções que dependem muito da impressão digital do navegador, você precisará de um navegador antidetecção como o Octo para imitar um usuário real navegando por eles.

No meio dessas camadas macro, existem toneladas de ferramentas específicas para alguns problemas, como impressão digital TLS ou movimentos de mouse semelhantes aos humanos.

Quais serão os maiores desafios técnicos para o web scraping em 2024? O web scraping está enfrentando novos desafios devido a LLMs e IA?

O maior desafio técnico ainda são as evasões de antibot. Existem técnicas cada vez mais sofisticadas para bloquear bots, mas, felizmente, também temos cada vez mais ferramentas para competir. Acho que LLMs e IA não são um grande problema, pois podem complementar a escrita do código. No momento, estamos vendo alguns produtos entrando no mercado que são alimentados por IA, tanto para analisar automaticamente o HTML quanto para evitar bots.

Quais são os sites mais desafiadores? Você também poderia fornecer algumas informações sobre os sistemas de proteção que são particularmente difíceis de contornar?

Em geral, os sites onde itens escassos são vendidos (bolsas Hermes ou tênis, ingressos e assim por diante) são os mais difíceis de contornar. Nesses casos, geralmente, uma impressão digital legítima não é suficiente, mas o scraper também deve se comportar como um humano, como ficar clicando em vez de navegar pelas páginas usando um URL direto e assim por diante. Geralmente, nesses sites, você é bloqueado mesmo se apenas navegar e fizer algo estranho, como clicar muito rápido.

Existem questões legais que os web scrapers devem ter em mente? Você poderia comentar sobre o recente caso Bright Data/Meta e se isso mudará a percepção e o status legal do web scraping?

Eu não sou advogado, então, se os leitores tiverem dúvidas sobre suas operações, é melhor ligar para um profissional de verdade em vez de ouvir minhas sugestões. A propósito, existem algumas regras fundamentais para estar 100% seguro ao fazer scraping:
  • Não coletar informações pessoais.
  • Não coletar informações protegidas por direitos autorais, especialmente se planejar revendê-las no estado em que se encontram.
  • Não coletar nada que estiver por trás de login ou não estiver publicamente acessível.
  • Não prejudicar o negócio do site-alvo.

Sobre a frase Meta vs. Bright Data, a decisão é muito específica para o caso e os Termos de Serviço da Meta. Portanto, seria inadequado generalizar qualquer conclusão a partir desse caso isolado. Mas é um fato que o web scraping, quando feito com ética e respeitando o site-alvo, é uma prática completamente legal e não deve ser visto como algo incerto. No final, é uma ferramenta parecida com um martelo: pode ser usada para o bem, como construir casas, ou para o mal, como quebrar vidros de carros, depende de quem está encarregado de o uso da ferramenta entender o que pode ser feito e o que não pode.

Existe um lugar onde se pode aprender sobre web scraping e interagir com a comunidade?

Agradeço esta pergunta, pois me permite fazer minha divulgação de forma direta. Eu comecei minha newsletter sobre web scraping, chamada The Web Scraping Club, há quase 2 anos. Eu escrevo sobre minhas experiências em web scraping, as ferramentas que estou testando, como contornar os antibots e assim por diante.

A inspiração veio quando percebi a dificuldade em encontrar um recurso prático para lidar com os antibots. Diante disso, decidi compartilhar minhas experiências com o mundo, o que resultou em mais de 2.400 assinantes da newsletter.

Mas também existem outros ótimos blogs para pessoas que desejam se aprofundar mais sobre o que está acontecendo nos bastidores de um antibot:
Trickster.dev é um deles, além do botting.rocks e webscraping.wiki.

Mantenha-se atualizado com as últimas notícias do Octo Browser

Artigos relacionados
Junte-se ao Octo Browser agora mesmo
Ou entre em contato com a equipe de suporte no chat para tirar dúvidas a qualquer momento.