如何在2025年通过网络爬虫赚钱?

2024/4/4

如何在2025年通过网络爬虫赚钱?
Pierluigi Vinciguerra

Interview with Pierluigi Vinciguerra, Databoutique

2023/2024年最受欢迎的数据是什么?哪种类型/主题/类别的数据集最受欢迎?

这很难说,因为网络爬虫正在成为主流,自从最新的人工智能和大型语言模型的发展,它们在很大程度上依赖于此,但它仍然远未普及。

网络爬虫最常见的用例之一是价格比较和市场情报:每个公司都想知道他们的产品在哪里销售、价格是多少,以及他们的竞争对手的行为。

另一个有价值的信息来自一些网站隐藏的库存水平。想象一下,通过每天爬取他们商店或仓库的库存水平来监控一家公司:这样做可以轻松估计他们的收入、最佳产品等等。这需要准确的数据收集,但正如你所想象的那样,这是一座金矿。

最后但并非最不重要的是,我们拥有所有的位置数据:Airbnb、酒店、房地产。如果收集一个较长的时间段,可以描述一个国家或城市的经济趋势。

今天通过网络爬虫赚钱有哪些方式?谁会是潜在买家,哪些平台或市场可用?

我看到通过网络爬虫赚钱有三种方式,并且它们并不是互斥的。

第一种也是最明显的方式是作为自由职业者做一些项目。你可以把它看作你的9到5的工作。

然后你可以在像Apify Store这样的地方出售你的代码,在那里你基本上可以出售你的代码(他们称之为Actor),人们可以在Apify平台上运行它并获得结果。

最后但并非最不重要的是,你可以在Databoutique.com出售你的爬虫结果数据集。这是一个新兴的网络爬虫数据市场,我们几个月前刚刚开设,我们正在努力增加平台的流量,同时每周推出新功能,所以不幸的是,目前你不会一夜之间发财。

背后的想法相当简单:直到今天,网络爬虫似乎更像是一套量身定制的西装:它很贵,专门为你制作,而卖家在将其出售给另一买家时会遇到很多困难。

我们希望出售H&M衬衫:涵盖买家基本需求的标准数据集,经过质量检查,但价格更低。

想一想:即使你有一个依赖网络爬虫数据的SaaS,所以理论上皆是同一服务,你总会需要一些新的网站来爬取给新客户,而这将使你的解决方案变得昂贵,减少潜在客户的数量。但也有一个事实,如果这些网站对我来说是新的,肯定已经有人在爬取它们。

我们所做的是创建一个数据市场,让已经爬取某些网站的人可以上传他们的数据信息(如果遵守规则),适应某些预定义的数据模式。通过这种方式,我们正在建立一个庞大的数据集目录,由于它们是标准化和经过质量检查的,可以与其他提供者的数据集捆绑在一起,增加被购买的机会。数据集被购买的次数越多,成本就更低,因为提取成本是一样的,成本越低,吸引的买家就越多,从而为网络爬虫的广泛应用生成积极的飞轮效应。

网络爬虫的工具箱包括什么?哪些软件和服务在收集数据方面有效?

从我开始进行网络爬虫的10年前,现在的情况发生了很大变化:今天网络爬虫的工具包相当多样。首先,你将需要一个像Python中的Scrapy这样的网络爬虫框架,适用于所有没有安装任何反机器人系统的网站。

然后你需要一个或多个代理提供商,因为你的操作开始扩展。

此外,你还需要一个浏览器自动化工具,如Playwright、Puppeteer或Selenium,当事情开始变得复杂时。

最后但并非最不重要的是,对于那些在浏览器指纹识别上有重保护的网站,你将需要一个反检测浏览器,比如Octo,以模拟真实用户浏览它们。

在这些宏观层级之间,还有许多针对特定问题的工具,例如TLS指纹识别或人体一样的鼠标移动。

在2024年,网络爬虫面临的最大技术挑战是什么?网络爬虫是否因为LLMs和人工智能面临新的挑战?

最大的技术挑战仍然是反机器人规避。阻止机器人越来越多的复杂技术,但是幸运的是,我们也有越来越多的工具进行竞争。我认为LLMs和人工智能并不是大问题,它们可以补充代码的编写。目前我们看到一些接近市场的AI驱动产品,既可以自动解析HTML,也可以进行反机器人规避。

哪些网站是最具挑战性的爬虫对象?你能否提供一些特别难以绕过的保护系统的见解?

一般来说,销售稀缺物品的网站(爱马仕包、运动鞋、票等等)是最难爬取的。在这些情况下,通常合法的指纹不足,爬虫还应表现得像人一样,比如绕着点击,而不是通过直接URL浏览页面等等。通常在这些网站上,即使你浏览它们,做一些奇怪的事情,比如快速点击周围,也会被屏蔽。

网络爬虫应注意哪些法律问题?你能否评论一下最近的Bright Data/Meta案件及其是否会改变对网络爬虫的看法和法律地位?

我不是律师,所以如果读者对他们的操作有任何疑虑,最好还是去咨询一个真正的律师,而不是听我的建议。话虽如此,有一些金规则可以在爬取时做到100%安全:

  • 不爬取任何个人信息。

  • 不爬取任何受版权保护的信息,尤其是如果你计划将其按原样转售。

  • 不爬取任何登录后或非公开访问的信息。

  • 不伤害目标网站的业务。

关于Meta与Bright Data的判决,裁决对于该案件及Meta的服务条款非常具体,因此我不想对此进行泛化。但是,事实是,当以道德方式进行网络爬虫,并尊重目标网站时,这是一种完全合法的做法,不应该被视为灰色地带。最终,这就像一把锤子:它可以被用于好事,比如建造房屋,或者用于坏事,比如打碎停放汽车上的玻璃。取决于谁负责工具的使用去理解什么可以做,什么不可以做。

是否有一个地方可以学习网络爬虫并与社区互动?

感谢这个问题,这样我就可以添加我的无耻广告。我差不多两年前开始了我的关于网络爬虫的时事通讯,叫做网络爬虫俱乐部。我写下了我在网络爬虫方面的经验,我正在测试的工具,如何绕过反机器人等等。

这个想法是因为我找不到一个地方来实际了解在需要绕过某些反机器人时该怎么做。为此,我开始将我的笔记分享给世界,现在我有2400多位时事通讯订阅者。

但也有其他很棒的博客,适合那些想更深入了解反机器人底层运作的人:Trickster.dev就是其中之一,但还有botting.rockswebscraping.wiki

2023/2024年最受欢迎的数据是什么?哪种类型/主题/类别的数据集最受欢迎?

这很难说,因为网络爬虫正在成为主流,自从最新的人工智能和大型语言模型的发展,它们在很大程度上依赖于此,但它仍然远未普及。

网络爬虫最常见的用例之一是价格比较和市场情报:每个公司都想知道他们的产品在哪里销售、价格是多少,以及他们的竞争对手的行为。

另一个有价值的信息来自一些网站隐藏的库存水平。想象一下,通过每天爬取他们商店或仓库的库存水平来监控一家公司:这样做可以轻松估计他们的收入、最佳产品等等。这需要准确的数据收集,但正如你所想象的那样,这是一座金矿。

最后但并非最不重要的是,我们拥有所有的位置数据:Airbnb、酒店、房地产。如果收集一个较长的时间段,可以描述一个国家或城市的经济趋势。

今天通过网络爬虫赚钱有哪些方式?谁会是潜在买家,哪些平台或市场可用?

我看到通过网络爬虫赚钱有三种方式,并且它们并不是互斥的。

第一种也是最明显的方式是作为自由职业者做一些项目。你可以把它看作你的9到5的工作。

然后你可以在像Apify Store这样的地方出售你的代码,在那里你基本上可以出售你的代码(他们称之为Actor),人们可以在Apify平台上运行它并获得结果。

最后但并非最不重要的是,你可以在Databoutique.com出售你的爬虫结果数据集。这是一个新兴的网络爬虫数据市场,我们几个月前刚刚开设,我们正在努力增加平台的流量,同时每周推出新功能,所以不幸的是,目前你不会一夜之间发财。

背后的想法相当简单:直到今天,网络爬虫似乎更像是一套量身定制的西装:它很贵,专门为你制作,而卖家在将其出售给另一买家时会遇到很多困难。

我们希望出售H&M衬衫:涵盖买家基本需求的标准数据集,经过质量检查,但价格更低。

想一想:即使你有一个依赖网络爬虫数据的SaaS,所以理论上皆是同一服务,你总会需要一些新的网站来爬取给新客户,而这将使你的解决方案变得昂贵,减少潜在客户的数量。但也有一个事实,如果这些网站对我来说是新的,肯定已经有人在爬取它们。

我们所做的是创建一个数据市场,让已经爬取某些网站的人可以上传他们的数据信息(如果遵守规则),适应某些预定义的数据模式。通过这种方式,我们正在建立一个庞大的数据集目录,由于它们是标准化和经过质量检查的,可以与其他提供者的数据集捆绑在一起,增加被购买的机会。数据集被购买的次数越多,成本就更低,因为提取成本是一样的,成本越低,吸引的买家就越多,从而为网络爬虫的广泛应用生成积极的飞轮效应。

网络爬虫的工具箱包括什么?哪些软件和服务在收集数据方面有效?

从我开始进行网络爬虫的10年前,现在的情况发生了很大变化:今天网络爬虫的工具包相当多样。首先,你将需要一个像Python中的Scrapy这样的网络爬虫框架,适用于所有没有安装任何反机器人系统的网站。

然后你需要一个或多个代理提供商,因为你的操作开始扩展。

此外,你还需要一个浏览器自动化工具,如Playwright、Puppeteer或Selenium,当事情开始变得复杂时。

最后但并非最不重要的是,对于那些在浏览器指纹识别上有重保护的网站,你将需要一个反检测浏览器,比如Octo,以模拟真实用户浏览它们。

在这些宏观层级之间,还有许多针对特定问题的工具,例如TLS指纹识别或人体一样的鼠标移动。

在2024年,网络爬虫面临的最大技术挑战是什么?网络爬虫是否因为LLMs和人工智能面临新的挑战?

最大的技术挑战仍然是反机器人规避。阻止机器人越来越多的复杂技术,但是幸运的是,我们也有越来越多的工具进行竞争。我认为LLMs和人工智能并不是大问题,它们可以补充代码的编写。目前我们看到一些接近市场的AI驱动产品,既可以自动解析HTML,也可以进行反机器人规避。

哪些网站是最具挑战性的爬虫对象?你能否提供一些特别难以绕过的保护系统的见解?

一般来说,销售稀缺物品的网站(爱马仕包、运动鞋、票等等)是最难爬取的。在这些情况下,通常合法的指纹不足,爬虫还应表现得像人一样,比如绕着点击,而不是通过直接URL浏览页面等等。通常在这些网站上,即使你浏览它们,做一些奇怪的事情,比如快速点击周围,也会被屏蔽。

网络爬虫应注意哪些法律问题?你能否评论一下最近的Bright Data/Meta案件及其是否会改变对网络爬虫的看法和法律地位?

我不是律师,所以如果读者对他们的操作有任何疑虑,最好还是去咨询一个真正的律师,而不是听我的建议。话虽如此,有一些金规则可以在爬取时做到100%安全:

  • 不爬取任何个人信息。

  • 不爬取任何受版权保护的信息,尤其是如果你计划将其按原样转售。

  • 不爬取任何登录后或非公开访问的信息。

  • 不伤害目标网站的业务。

关于Meta与Bright Data的判决,裁决对于该案件及Meta的服务条款非常具体,因此我不想对此进行泛化。但是,事实是,当以道德方式进行网络爬虫,并尊重目标网站时,这是一种完全合法的做法,不应该被视为灰色地带。最终,这就像一把锤子:它可以被用于好事,比如建造房屋,或者用于坏事,比如打碎停放汽车上的玻璃。取决于谁负责工具的使用去理解什么可以做,什么不可以做。

是否有一个地方可以学习网络爬虫并与社区互动?

感谢这个问题,这样我就可以添加我的无耻广告。我差不多两年前开始了我的关于网络爬虫的时事通讯,叫做网络爬虫俱乐部。我写下了我在网络爬虫方面的经验,我正在测试的工具,如何绕过反机器人等等。

这个想法是因为我找不到一个地方来实际了解在需要绕过某些反机器人时该怎么做。为此,我开始将我的笔记分享给世界,现在我有2400多位时事通讯订阅者。

但也有其他很棒的博客,适合那些想更深入了解反机器人底层运作的人:Trickster.dev就是其中之一,但还有botting.rockswebscraping.wiki

随时获取最新的Octo Browser新闻

通过点击按钮,您同意我们的 隐私政策

随时获取最新的Octo Browser新闻

通过点击按钮,您同意我们的 隐私政策

随时获取最新的Octo Browser新闻

通过点击按钮,您同意我们的 隐私政策

立即加入Octo Browser

或者随时联系客户服务,如果您有任何问题。

立即加入Octo Browser

或者随时联系客户服务,如果您有任何问题。

立即加入Octo Browser

或者随时联系客户服务,如果您有任何问题。

©

2025年

Octo Browser

©

2025年

Octo Browser

©

2025年

Octo Browser