网络抓取是否合法?

2026/1/14

网络抓取是否合法?
Lena Fisher's Profile Image
Lena Fisher

Content Manager, Octo Browser

网络抓取,也称为网络解析,是在线数据的自动化收集。它被广泛用于营销、价格分析、品牌监控和许多其他任务。互联网的信息量每年都在增长,网站解析成为处理大量数字内容的强大工具。网络抓取合法吗?是的,但有一些细节需要考虑。在本文中,我们研究了美国、欧盟、英国和俄罗斯的哪些法律规则可能影响网络抓取。

网络抓取,也称为网络解析,是在线数据的自动化收集。它被广泛用于营销、价格分析、品牌监控和许多其他任务。互联网的信息量每年都在增长,网站解析成为处理大量数字内容的强大工具。网络抓取合法吗?是的,但有一些细节需要考虑。在本文中,我们研究了美国、欧盟、英国和俄罗斯的哪些法律规则可能影响网络抓取。

内容

网络抓取是否合法?

一个简单的例子:当您在网上搜索产品并比较不同网站上的价格时,您实际上是在进行手动抓取。自动化网络抓取以更快的速度完成相同的任务。它有助于根据特定标准收集大量数据并将其组织成文件进行分析。通过这种方法,您可以抓取价格、交付条款、商店品类、联系方式等。

这合法吗?是的,如果我们讨论的是收集公开的可用信息,与手动检查不同平台上的价格类似。法律问题出现于抓取涉及:

  • 受版权保护的材料;

  • 个人数据(电话号码、电子邮件地址);

  • 隐藏在未注册或未授权用户之外的信息。

绕过网站的技术保护措施——如CAPTCHA、登录、机器人拦截——也可能是不合法的。

隐私法如何影响网络抓取

大多数国家没有直接针对网络抓取的法规。然而,许多规定在抓取涉及受版权保护的材料或隐藏内容时会间接适用。违反网站的使用条款、安全规则或收集个人数据也有风险。

能够识别特定人的任何信息都被视为个人数据。不同国家定义了自己的类别,但大多数包括:

  • 全名;

  • 地址、电话号码、电子邮件;

  • ID号;

  • IP地址和cookie;

  • 位置信息;

  • 财务信息。

一些国家还设有敏感数据的类别。通常,这包括关于一个人的种族、宗教或政治观点、性取向以及生物特征和医疗数据的信息。

注意:在本文中,我们从不同国家的法律角度分析网络抓取的潜在风险。在开始抓取之前,建议认真研究您所在地区的法律并评估可能的风险。重要的是要记住,即使您在一个国家执行操作,它们也可能影响其他地区的用户或资源,并受到多个国家法律的管辖。例如,如果来自欧洲的用户从美国网站收集数据,则可能同时适用欧盟和美国的法规。

与网络抓取相关的法律在不同国家的表现如何?

美国

  • CFAA(计算机欺诈和滥用法案)——保护防止未经授权的访问和绕过技术保护措施。

  • DMCA(数字千年版权法案)——保护数字环境中的版权。

  • FTC法案(联邦贸易委员会法案,第5节)——禁止不公平商业行为。

  • 州数据泄露法——关于个人数据的州法律。

  • 第一修正案和合理使用原则——材料的合理使用原则。

  • ToS(服务条款)——网站使用条款。

欧盟

  • GDPR(通用数据保护条例)——保护个人数据。

  • 数据库指令96/9/EC——保护数据库。

  • 版权指令——统一的版权标准。

  • ePrivacy指令——隐私保护和使用cookie的规则。

  • DSA(数字服务法案)——平台上的安全和内容控制规则。

  • P2B法规(平台对企业法规)——商务用户的透明条件。

英国

  • UK GDPR(英国通用数据保护条例)——保护个人数据。

  • DPA 2018(2018年数据保护法)——也保护个人数据。

  • CDPA(1988年版权、设计和专利法)——原创内容的版权保护。

  • 数据库权利——保护数据库。

  • CMA(1990年计算机滥用法案)——禁止未经授权的系统访问。

俄罗斯

  • 个人数据联邦法第152-FZ号——保护个人数据。

  • 俄罗斯联邦民法典第四部分——版权和数据库。

  • 信息技术和信息保护联邦法第149-FZ号——信息系统和IT系统的访问和保护。

  • 竞争保护联邦法第135-FZ号——不公平竞争。

  • 消费者权利保护联邦法——商业服务的规范。

  • 通信联邦法——保护基础设施和网络。

网络抓取在美国的法规限制

如果您遵守数据访问、版权、公平竞争、隐私和网站使用条款的规则,网络抓取是合法的。风险在于抓取程序绕过技术限制或侵犯第三方权利。

区域

法规

允许

不允许

备注

数据访问和系统保护

CFAA, ToS

  • 抓取公共页面。

  • 在不绕过登录、CAPTCHA、付费订阅或IP拦截的情况下进行请求。

  • 绕过技术保护措施。

  • 入侵数据库。

  • 使用别人的密码、账户或cookie。

  • 违反网站规则或利用其漏洞。


个人数据和隐私

CCPA, CPRA, 州法律

  • 收集匿名数据、公开信息和评论。

  • 偷偷出售信息。

  • 在没有通知用户且没有给用户选择退出的情况下,抓取电子邮件地址、电话号码、行为档案或位置信息

法律要求通知用户数据泄露事件。用户也必须有选择拒绝数据收集和处理的选项。

版权和内容使用

DMCA, 公平使用

  • 提取事实、价格、目录、统计数据、产品描述和分析结果。

  • 将信息转换为新格式——例如,图表或信息图表。

  • 有限方式引用收集的信息。

  • 未经许可发布来自其他网站的文本、照片或评论。

  • 绕过数字内容的技术保护。


公平商业实践

FTC法案第5节

  • 使用公共数据进行分析、产品评级或评论。

  • 歪曲信息。

  • 将自动访问呈现为真实用户活动。

如果公司在非公开用户同意的情况下,秘密处理或出售个人数据,FTC可以采取行动。公司还需要明确说明他们收集哪些信息、用途是什么,以及与谁共享。

网络抓取在欧盟的法规限制

欧盟允许网络抓取。风险在于绕过平台的技术限制、访问封闭部分或伪造cookie、令牌或会话。遵循请求频率和网站使用条款也很重要。这些规则由GDPR、数据库指令、版权指令、ePrivacy指令、DSA和P2B法规控制。

区域

法规

允许

不允许

备注

个人数据和隐私

CDPR, ePrivacy指令, DSA, P2B法规 

  • 收集非个人数据——价格、产品规格、评分、评论数量。

  • 在证明合法利益的情况下处理公共个人数据。

  • 操纵cookie或绕过cookie限制。

  • 未经用户同意访问存储在用户设备上的数据。

  • 收集个人数据——电子邮件地址、姓名、照片、社交媒体资料或其他私人信息。

  • 从私人资料或仅限高级区域提取信息。

  • 忽略平台对自动化数据收集的禁令。

合法利益是处理个人数据的有效理由。如果您正在处理个人数据,遵循GDPR的主要原则很重要:最小化数据收集、确保透明度、拥有明确的目标、通知用户,并应要求删除数据。

版权和内容使用

版权指令

  • 提取没有创作内容的一般事实信息——营业时间、价格、评论数量、产品规格。

  • 使用小型内容片段进行分析。

  • 复制和发布文本和图像。

  • 上传来自其他网站的内容或发布没有经过重大修改的文章。


数据库

数据库指令96/9/EU

  • 收集小部分或单个元素的数据库

  • 复制数据库的实质部分——主要是指其内容的数量和重要性。

  • 批量提取内容。

  • 重新发布内容。

  • 创建完全基于他人数据库的产品。


技术访问限制

指令2013/40/EU, 指令2001/29/EU

  • 通过HTTP请求访问公共页面。

  • 使用官方API。

  • 遵循请求限制。

  • 根据robots.txt文件中规定的规则抓取数据。

  • 绕过平台的技术保护。

  • 伪造cookie、令牌、会话或用户代理。

  • 模仿设备。

  • 绕过认证。

  • 访问仅限高级数据或受限区域。

  • 过多请求导致网站过载。


平台规则和市场关系

DSA, P2B法规, ToS

  • 通过官方API收集公共数据。

  • 在遵守速率限制和平台对机器人的技术要求的情况下抓取数据。

  • 使服务过载。

  • 忽视平台对机器人的规则。

  • 绕过网站的保护。

  • 模仿真实的用户行为。


网络抓取在英国的法规限制

在英国没有直接针对网络抓取的法律。然而,它的合法性取决于抓取的内容是否涉及个人数据、数据库或受版权保护的材料。遵循网站规则并不绕过平台的技术保护也很重要。

UK GDPR是经过Brexit后调整的欧洲GDPR的英国版本。

区域

法规

允许

不允许

备注

个人数据

UK GDPR, 2018年数据保护法 

  • 抓取非个人和匿名的公共数据——价格、产品规格、活动安排。

  • 未经同意收集电子邮件地址、姓名、照片、社交媒体资料和其他个人数据。

  • 抓取公共账户用于营销、用户分析或面部识别。

在英国,抓取和处理个人信息必须有合法依据——例如,获得个人的同意。自动化个人数据的网络抓取可能导致刑事责任。

版权

1988年版权、设计和专利法

  • 收集事实——价格、评分、产品规格和品种、事件日期或数字数据。

  • 复制原始形式的受保护材料——文本、照片、信息图或代码。

  • 重新发布第三方材料。

  • 在您自己的平台上聚合文章。

  • 创建完全基于第三方内容的目录。


数据库

数据库权利

  • 为个人使用、统计、分析和研究收集片段。

  • 将数据用于非商业目的。

  • 收集非实质性部分的数据库。

  • 复制数据库的实质部分。

  • 根据第三方数据创建竞争数据库。

  • 绕过数据库的技术保护措施。

数据库的非实质性部分不超过30-50%,且不包括关键目录元素。

技术保护措施和访问

1990年计算机滥用法案

  • 抓取来自公开访问页面的数据。

  • 绕过技术保护措施。

  • 伪造cookie。

  • 绕过认证和IP拦截。

  • 破解CAPTCHA。

  • 将机器隐藏为真实用户以访问受限系统。


网络抓取在俄罗斯的法规限制

在俄罗斯没有直接针对网络抓取的法律。然而,几项法律涉及到个人数据、数据库、商业信息以及信息系统或版权材料的抓取。

区域

法规

允许

不允许

备注

个人数据

个人数据联邦法第152-FZ号

  • 收集公共的非个人数据——价格、产品规格、活动安排、新闻、统计。

  • 抓取匿名的社交媒体数据——点赞和转发数、匿名用户名、不含身份信息的页面链接。

  • 收集个人信息——姓名、电话号码、地理位置、电子邮件和家庭地址、照片、社交媒体资料ID。

  • 建立联系数据库——例如Avito用户的数据库。

  • 未经许可收集和汇总来自多个资料的个人数据。

  • 与第三方共享个人数据。

任何个人数据的收集都必须有合法依据——例如,用户的同意。或者,它必须满足法律规定的其他目的。例如,为了在紧急情况下拯救某人,您可以在未经同意的情况下共享医疗信息。

版权和数据库

俄罗斯联邦民法典第四部分

  • 抓取事实信息——价格、技术规格。

  • 将事实信息用于分析、统计和研究。

  • 大量复制和发布他人的材料——原创文本、描述、照片、文章、图像和软件代码。

  • 完全抓取数据库。

  • 提取数据库的实质部分,即便其中的某些信息未受保护。

数据库作为独立对象受到保护。

技术保护措施

信息、IT和信息保护联邦法第149-FZ号

  • 抓取公开可访问的页面并收集网络研讨会安排或产品规格。

  • 绕过技术保护措施。

  • 自动化对受限系统或受保护数据库的访问。

  • 伪造cookie。

  • 使用他人的令牌或密码。

  • 绕过认证和CAPTCHA。

  • 像DDoS攻击一样使网站过载。


不正当竞争和消费者保护

竞争保护联邦法第135-FZ号,消费者权利保护联邦法

  • 与竞争对手的公共数据合作以进行市场监测。

  • 创建服务克隆。

  • 将别人的内容作为自己的内容提交。

  • 显示旧的或错误的数据——例如,在聚合网站上。


基础设施和电信

通信联邦法

  • 收集公共数据。

  • 发送大量请求,类似于DDoS攻击。


安全和道德网络抓取的最佳实践

在可能的情况下使用API

API是以不违反网站保护或规则的安全方式访问数据的一种官方方式。通过API,网站所有者决定可以收集哪些信息、频率和格式,从而将违规风险降至最低。许多社交媒体和服务提供API访问帖子、评论、评分或统计数据。通常可以在API、开发者、文档、集成部分中找到,或通过搜索“站点名称+API”来找到它们。

遵循网站规则

在抓取之前,查看网站的使用条款(ToS)。它们通常解释是否允许自动化数据收集及其条件。此外,查看robots.txt文件,您可以通过https://domain/robots.txt访问。它显示网站的哪些部分可以由抓取机器人访问。

尊重平台资源并负责任地抓取。限制您的请求频率——例如,每秒一次请求。在请求之间添加随机延迟,并注意服务器响应代码,如429或503。如果看到这些代码,请降低请求频率。这有助于避免技术违规并降低被阻止的风险。

最小化数据收集

仅收集您任务所需的数据。这减少了风险和简化了存储,还显示了对网站所有者和用户的尊重。

在抓取之前,定义您的目标并列出所需字段。不要收集无助于实现目标的任何东西。例如,在分析新闻时,只需收集标题、日期和类别即可。作者的名称或他们社交媒体的链接不是必要的。

此外,请避免收集个人数据,如姓名、电子邮件地址、地理位置、照片或包含个人信息的评论。

记录您所收集的数据

记录您数据的来源以及您如何处理它。这有助于维护透明度,并在必要时展示您的工作的合法性。如果您收集了比需要的更多数据,请删除多余的数据。

将数据转换以避免版权问题

使用收集的数据创建新的结果,如分析、统计、可视化或您自己的内容。例如,如果机器人收集来自不同商店的MacBook Air价格,可以使用这些信息生成价格趋势图。然而,未经修改地发布他人的产品描述不推荐使用。这可能会侵犯版权。

不遵循抓取规则的风险和后果

刑事或监管制裁(GDPR,CCPA)

GDPR(欧盟)规定罚款高达2000万欧元或公司全球年营业额的4%。CCPA(美国)允许每次违规可处以高达7500美元的罚款。即便在工作中涉及公共数据的情况下,如果可以用来识别个人或未依法处理,该风险仍旧存在。

监管机构积极执行这些措施。到2024年,GDPR的总罚款超过12亿欧元。一些最近的最显著制裁包括:

  • Meta——因非法将数据从欧盟转移到美国而被罚约12亿欧元。

  • Amazon——因违反GDPR原则而被罚7.46亿欧元。

  • LinkedIn——因未经充分法律依据处理数据而被罚3.10亿欧元。

  • TikTok——因将数据转移到中国且隐私政策透明度不足而被罚5.30亿欧元。

这些罚款表明违反数据处理和转移规则对抓取专家和企业来说是一个潜在的代价高昂的风险。

运营和商业风险

除了罚款,证明违反网络抓取规则可能对企业构成严重威胁。公司可能面临以下后果:

  • IP访问阻止和数据使用限制;

  • 竞争对手或用户投诉需要对非法使用个人数据、内容或数据库进行赔偿的诉讼;

  • 如果被发现数据被不当获得或使用,失去合作伙伴关系和声誉。

违反规则还会导致运营成本。企业可能需要:

  • 审查其架构;

  • 更改数据存储和处理工作流程;

  • 删除非法收集的数据集;

  • 实施合规流程;

  • 维护日志并管理用户同意。

在某些情况下,公司在发现采集关键数据源的违规行为后,完全关闭了一种产品。

有时从事自动化数据收集的公司和专家使用额外的解决方案——例如,反检测浏览器,如Octo Browser。它们帮助更有选择地管理网络参数,例如,使用不同的IP地址和更改设备的数字指纹。这些工具也使得可以在网络抓取时控制请求速率,以在会话之间分配负载。所有这些确保更负责任的抓取。这减少了平台自动阻止和附加检查,如CAPTCHA的风险。然而,从法律的角度来看,使用这些解决方案并不免除您在抓取违反网站规则或国家法律时的责任。

与web抓取相关的法院案例

LinkLinkedIn versus hiQ Labs(美国,2019到2022)

此案例是美国的一个关键先例。它确定了收集公开数据不违反CFAA。hiQ分析公开的LinkedIn资料,而社交网络试图阻止抓取,称其构成未经授权的访问。第九巡回上诉法院裁定,如果数据是公开的而且不需要授权,那么收集它是合法的。

这个决定设定了一个标准:抓取具有公共访问权限的公共页面(作为用户无需登录)不被视为违规。然而,法院指出,试图访问网站的私人区域则被视为未经授权的访问。

Craigslist versus 3Taps(美国,2013年)

加利福尼亚州北区联邦法院裁定,网络抓取由于绕过技术限制而违反了CFAA。3Taps从Craigslist收集公告并将其重新发布在自己的平台上。即使在收到官方的停止通知和IP阻止后,公司仍然通过代理继续抓取页面。

法院认为,任何在明确禁止和阻止后进行的访问都被视为未经授权。此案例表明抓取本身并不总是非法,但绕过技术保护措施构成严重违规。

Facebook versus Power Ventures(美国,2009年)

Power Ventures未经社交网络的同意抓取关于用户朋友及其活动的数据,包括绕过认证。此外,Power Ventures无视Facebook的警告通知。

法院裁定这违反了CFAA以及计算机安全法律。即便有用户授权访问他们的数据(授予给Facebook),第三方不能为了批量数据收集绕过平台的技术保护。此决定成为评估抓取私人系统合法性以及遵循平台规则的关键先例。

Ryanair versus Booking.com(美国,2025年)

Ryanair指控Booking.com在明令禁止和技术限制的情况下进行未经授权的航班和价格数据抓取。最初,陪审团发现访问未被授权。然而,在2025年,法官审查了案件并指出,Ryanair未证明实际伤害。因此,CFAA不能适用于这个案件。

最终,双方达成协议。Booking.com可以在其遵守访问规则和维持价格透明度的情况下合法转售Ryanair机票。该案件表明绕过抓取过程中的限制具有风险,而证明实际伤害和达成和解往往是决定性的。

结论

网络抓取本身不被视为非法。正确使用时,它是收集和分析数据以及改善商业流程的重要工具。然而,安全抓取需要经过仔细考虑的方法。为了降低风险:

  • 尽可能使用平台的官方API;

  • 遵循速率限制和请求频率规则;

  • 仅收集您真正需要的数据;

  • 不绕过平台的技术保护措施;

  • 避免抓取个人数据;

  • 尊重版权和知识产权。

在开始网络抓取之前,始终查看适用法律法规、网站的ToS以及潜在风险。

常见问题

网络抓取合法吗?

不,网络抓取本身并不被禁止。然而,它的合法性取决于收集的数据内容和方式。可以收集公开的事实信息。问题可能出现在抓取器违反网站规则、无合法依据处理个人数据或访问受版权保护或受限资料时。使用透明抓取方法而不绕过技术保护措施也很重要。

网络抓取在美国合法吗?

在美国,网络抓取的合法性取决于是否违反CFAA公共页面。可以进行分析,但绕过登录、付费订阅、IP封锁或其他障碍可能被视为违法行为。著名的例子是LinkedIn对于hiQ Labs案例。法院允许从公开资料中收集数据,但强调任何企图访问网站私人区域的行为都会将抓取转变成违法行为。

网络抓取可以用于商业或研究目的吗?

是的,这些是网络抓取最常见的用途之一。然而,必须满足几个条件。商业项目必须尊重版权,遵循平台规则,并避免收集个人数据。对于研究目的,重要的是使用公开或匿名的信息,避免访问受保护的网站区域,并在分析过程中转换用于发布的数据。最关键的请求是不要绕过技术限制或提取无合法权或授权的数据。

网络抓取是否合法?

一个简单的例子:当您在网上搜索产品并比较不同网站上的价格时,您实际上是在进行手动抓取。自动化网络抓取以更快的速度完成相同的任务。它有助于根据特定标准收集大量数据并将其组织成文件进行分析。通过这种方法,您可以抓取价格、交付条款、商店品类、联系方式等。

这合法吗?是的,如果我们讨论的是收集公开的可用信息,与手动检查不同平台上的价格类似。法律问题出现于抓取涉及:

  • 受版权保护的材料;

  • 个人数据(电话号码、电子邮件地址);

  • 隐藏在未注册或未授权用户之外的信息。

绕过网站的技术保护措施——如CAPTCHA、登录、机器人拦截——也可能是不合法的。

隐私法如何影响网络抓取

大多数国家没有直接针对网络抓取的法规。然而,许多规定在抓取涉及受版权保护的材料或隐藏内容时会间接适用。违反网站的使用条款、安全规则或收集个人数据也有风险。

能够识别特定人的任何信息都被视为个人数据。不同国家定义了自己的类别,但大多数包括:

  • 全名;

  • 地址、电话号码、电子邮件;

  • ID号;

  • IP地址和cookie;

  • 位置信息;

  • 财务信息。

一些国家还设有敏感数据的类别。通常,这包括关于一个人的种族、宗教或政治观点、性取向以及生物特征和医疗数据的信息。

注意:在本文中,我们从不同国家的法律角度分析网络抓取的潜在风险。在开始抓取之前,建议认真研究您所在地区的法律并评估可能的风险。重要的是要记住,即使您在一个国家执行操作,它们也可能影响其他地区的用户或资源,并受到多个国家法律的管辖。例如,如果来自欧洲的用户从美国网站收集数据,则可能同时适用欧盟和美国的法规。

与网络抓取相关的法律在不同国家的表现如何?

美国

  • CFAA(计算机欺诈和滥用法案)——保护防止未经授权的访问和绕过技术保护措施。

  • DMCA(数字千年版权法案)——保护数字环境中的版权。

  • FTC法案(联邦贸易委员会法案,第5节)——禁止不公平商业行为。

  • 州数据泄露法——关于个人数据的州法律。

  • 第一修正案和合理使用原则——材料的合理使用原则。

  • ToS(服务条款)——网站使用条款。

欧盟

  • GDPR(通用数据保护条例)——保护个人数据。

  • 数据库指令96/9/EC——保护数据库。

  • 版权指令——统一的版权标准。

  • ePrivacy指令——隐私保护和使用cookie的规则。

  • DSA(数字服务法案)——平台上的安全和内容控制规则。

  • P2B法规(平台对企业法规)——商务用户的透明条件。

英国

  • UK GDPR(英国通用数据保护条例)——保护个人数据。

  • DPA 2018(2018年数据保护法)——也保护个人数据。

  • CDPA(1988年版权、设计和专利法)——原创内容的版权保护。

  • 数据库权利——保护数据库。

  • CMA(1990年计算机滥用法案)——禁止未经授权的系统访问。

俄罗斯

  • 个人数据联邦法第152-FZ号——保护个人数据。

  • 俄罗斯联邦民法典第四部分——版权和数据库。

  • 信息技术和信息保护联邦法第149-FZ号——信息系统和IT系统的访问和保护。

  • 竞争保护联邦法第135-FZ号——不公平竞争。

  • 消费者权利保护联邦法——商业服务的规范。

  • 通信联邦法——保护基础设施和网络。

网络抓取在美国的法规限制

如果您遵守数据访问、版权、公平竞争、隐私和网站使用条款的规则,网络抓取是合法的。风险在于抓取程序绕过技术限制或侵犯第三方权利。

区域

法规

允许

不允许

备注

数据访问和系统保护

CFAA, ToS

  • 抓取公共页面。

  • 在不绕过登录、CAPTCHA、付费订阅或IP拦截的情况下进行请求。

  • 绕过技术保护措施。

  • 入侵数据库。

  • 使用别人的密码、账户或cookie。

  • 违反网站规则或利用其漏洞。


个人数据和隐私

CCPA, CPRA, 州法律

  • 收集匿名数据、公开信息和评论。

  • 偷偷出售信息。

  • 在没有通知用户且没有给用户选择退出的情况下,抓取电子邮件地址、电话号码、行为档案或位置信息

法律要求通知用户数据泄露事件。用户也必须有选择拒绝数据收集和处理的选项。

版权和内容使用

DMCA, 公平使用

  • 提取事实、价格、目录、统计数据、产品描述和分析结果。

  • 将信息转换为新格式——例如,图表或信息图表。

  • 有限方式引用收集的信息。

  • 未经许可发布来自其他网站的文本、照片或评论。

  • 绕过数字内容的技术保护。


公平商业实践

FTC法案第5节

  • 使用公共数据进行分析、产品评级或评论。

  • 歪曲信息。

  • 将自动访问呈现为真实用户活动。

如果公司在非公开用户同意的情况下,秘密处理或出售个人数据,FTC可以采取行动。公司还需要明确说明他们收集哪些信息、用途是什么,以及与谁共享。

网络抓取在欧盟的法规限制

欧盟允许网络抓取。风险在于绕过平台的技术限制、访问封闭部分或伪造cookie、令牌或会话。遵循请求频率和网站使用条款也很重要。这些规则由GDPR、数据库指令、版权指令、ePrivacy指令、DSA和P2B法规控制。

区域

法规

允许

不允许

备注

个人数据和隐私

CDPR, ePrivacy指令, DSA, P2B法规 

  • 收集非个人数据——价格、产品规格、评分、评论数量。

  • 在证明合法利益的情况下处理公共个人数据。

  • 操纵cookie或绕过cookie限制。

  • 未经用户同意访问存储在用户设备上的数据。

  • 收集个人数据——电子邮件地址、姓名、照片、社交媒体资料或其他私人信息。

  • 从私人资料或仅限高级区域提取信息。

  • 忽略平台对自动化数据收集的禁令。

合法利益是处理个人数据的有效理由。如果您正在处理个人数据,遵循GDPR的主要原则很重要:最小化数据收集、确保透明度、拥有明确的目标、通知用户,并应要求删除数据。

版权和内容使用

版权指令

  • 提取没有创作内容的一般事实信息——营业时间、价格、评论数量、产品规格。

  • 使用小型内容片段进行分析。

  • 复制和发布文本和图像。

  • 上传来自其他网站的内容或发布没有经过重大修改的文章。


数据库

数据库指令96/9/EU

  • 收集小部分或单个元素的数据库

  • 复制数据库的实质部分——主要是指其内容的数量和重要性。

  • 批量提取内容。

  • 重新发布内容。

  • 创建完全基于他人数据库的产品。


技术访问限制

指令2013/40/EU, 指令2001/29/EU

  • 通过HTTP请求访问公共页面。

  • 使用官方API。

  • 遵循请求限制。

  • 根据robots.txt文件中规定的规则抓取数据。

  • 绕过平台的技术保护。

  • 伪造cookie、令牌、会话或用户代理。

  • 模仿设备。

  • 绕过认证。

  • 访问仅限高级数据或受限区域。

  • 过多请求导致网站过载。


平台规则和市场关系

DSA, P2B法规, ToS

  • 通过官方API收集公共数据。

  • 在遵守速率限制和平台对机器人的技术要求的情况下抓取数据。

  • 使服务过载。

  • 忽视平台对机器人的规则。

  • 绕过网站的保护。

  • 模仿真实的用户行为。


网络抓取在英国的法规限制

在英国没有直接针对网络抓取的法律。然而,它的合法性取决于抓取的内容是否涉及个人数据、数据库或受版权保护的材料。遵循网站规则并不绕过平台的技术保护也很重要。

UK GDPR是经过Brexit后调整的欧洲GDPR的英国版本。

区域

法规

允许

不允许

备注

个人数据

UK GDPR, 2018年数据保护法 

  • 抓取非个人和匿名的公共数据——价格、产品规格、活动安排。

  • 未经同意收集电子邮件地址、姓名、照片、社交媒体资料和其他个人数据。

  • 抓取公共账户用于营销、用户分析或面部识别。

在英国,抓取和处理个人信息必须有合法依据——例如,获得个人的同意。自动化个人数据的网络抓取可能导致刑事责任。

版权

1988年版权、设计和专利法

  • 收集事实——价格、评分、产品规格和品种、事件日期或数字数据。

  • 复制原始形式的受保护材料——文本、照片、信息图或代码。

  • 重新发布第三方材料。

  • 在您自己的平台上聚合文章。

  • 创建完全基于第三方内容的目录。


数据库

数据库权利

  • 为个人使用、统计、分析和研究收集片段。

  • 将数据用于非商业目的。

  • 收集非实质性部分的数据库。

  • 复制数据库的实质部分。

  • 根据第三方数据创建竞争数据库。

  • 绕过数据库的技术保护措施。

数据库的非实质性部分不超过30-50%,且不包括关键目录元素。

技术保护措施和访问

1990年计算机滥用法案

  • 抓取来自公开访问页面的数据。

  • 绕过技术保护措施。

  • 伪造cookie。

  • 绕过认证和IP拦截。

  • 破解CAPTCHA。

  • 将机器隐藏为真实用户以访问受限系统。


网络抓取在俄罗斯的法规限制

在俄罗斯没有直接针对网络抓取的法律。然而,几项法律涉及到个人数据、数据库、商业信息以及信息系统或版权材料的抓取。

区域

法规

允许

不允许

备注

个人数据

个人数据联邦法第152-FZ号

  • 收集公共的非个人数据——价格、产品规格、活动安排、新闻、统计。

  • 抓取匿名的社交媒体数据——点赞和转发数、匿名用户名、不含身份信息的页面链接。

  • 收集个人信息——姓名、电话号码、地理位置、电子邮件和家庭地址、照片、社交媒体资料ID。

  • 建立联系数据库——例如Avito用户的数据库。

  • 未经许可收集和汇总来自多个资料的个人数据。

  • 与第三方共享个人数据。

任何个人数据的收集都必须有合法依据——例如,用户的同意。或者,它必须满足法律规定的其他目的。例如,为了在紧急情况下拯救某人,您可以在未经同意的情况下共享医疗信息。

版权和数据库

俄罗斯联邦民法典第四部分

  • 抓取事实信息——价格、技术规格。

  • 将事实信息用于分析、统计和研究。

  • 大量复制和发布他人的材料——原创文本、描述、照片、文章、图像和软件代码。

  • 完全抓取数据库。

  • 提取数据库的实质部分,即便其中的某些信息未受保护。

数据库作为独立对象受到保护。

技术保护措施

信息、IT和信息保护联邦法第149-FZ号

  • 抓取公开可访问的页面并收集网络研讨会安排或产品规格。

  • 绕过技术保护措施。

  • 自动化对受限系统或受保护数据库的访问。

  • 伪造cookie。

  • 使用他人的令牌或密码。

  • 绕过认证和CAPTCHA。

  • 像DDoS攻击一样使网站过载。


不正当竞争和消费者保护

竞争保护联邦法第135-FZ号,消费者权利保护联邦法

  • 与竞争对手的公共数据合作以进行市场监测。

  • 创建服务克隆。

  • 将别人的内容作为自己的内容提交。

  • 显示旧的或错误的数据——例如,在聚合网站上。


基础设施和电信

通信联邦法

  • 收集公共数据。

  • 发送大量请求,类似于DDoS攻击。


安全和道德网络抓取的最佳实践

在可能的情况下使用API

API是以不违反网站保护或规则的安全方式访问数据的一种官方方式。通过API,网站所有者决定可以收集哪些信息、频率和格式,从而将违规风险降至最低。许多社交媒体和服务提供API访问帖子、评论、评分或统计数据。通常可以在API、开发者、文档、集成部分中找到,或通过搜索“站点名称+API”来找到它们。

遵循网站规则

在抓取之前,查看网站的使用条款(ToS)。它们通常解释是否允许自动化数据收集及其条件。此外,查看robots.txt文件,您可以通过https://domain/robots.txt访问。它显示网站的哪些部分可以由抓取机器人访问。

尊重平台资源并负责任地抓取。限制您的请求频率——例如,每秒一次请求。在请求之间添加随机延迟,并注意服务器响应代码,如429或503。如果看到这些代码,请降低请求频率。这有助于避免技术违规并降低被阻止的风险。

最小化数据收集

仅收集您任务所需的数据。这减少了风险和简化了存储,还显示了对网站所有者和用户的尊重。

在抓取之前,定义您的目标并列出所需字段。不要收集无助于实现目标的任何东西。例如,在分析新闻时,只需收集标题、日期和类别即可。作者的名称或他们社交媒体的链接不是必要的。

此外,请避免收集个人数据,如姓名、电子邮件地址、地理位置、照片或包含个人信息的评论。

记录您所收集的数据

记录您数据的来源以及您如何处理它。这有助于维护透明度,并在必要时展示您的工作的合法性。如果您收集了比需要的更多数据,请删除多余的数据。

将数据转换以避免版权问题

使用收集的数据创建新的结果,如分析、统计、可视化或您自己的内容。例如,如果机器人收集来自不同商店的MacBook Air价格,可以使用这些信息生成价格趋势图。然而,未经修改地发布他人的产品描述不推荐使用。这可能会侵犯版权。

不遵循抓取规则的风险和后果

刑事或监管制裁(GDPR,CCPA)

GDPR(欧盟)规定罚款高达2000万欧元或公司全球年营业额的4%。CCPA(美国)允许每次违规可处以高达7500美元的罚款。即便在工作中涉及公共数据的情况下,如果可以用来识别个人或未依法处理,该风险仍旧存在。

监管机构积极执行这些措施。到2024年,GDPR的总罚款超过12亿欧元。一些最近的最显著制裁包括:

  • Meta——因非法将数据从欧盟转移到美国而被罚约12亿欧元。

  • Amazon——因违反GDPR原则而被罚7.46亿欧元。

  • LinkedIn——因未经充分法律依据处理数据而被罚3.10亿欧元。

  • TikTok——因将数据转移到中国且隐私政策透明度不足而被罚5.30亿欧元。

这些罚款表明违反数据处理和转移规则对抓取专家和企业来说是一个潜在的代价高昂的风险。

运营和商业风险

除了罚款,证明违反网络抓取规则可能对企业构成严重威胁。公司可能面临以下后果:

  • IP访问阻止和数据使用限制;

  • 竞争对手或用户投诉需要对非法使用个人数据、内容或数据库进行赔偿的诉讼;

  • 如果被发现数据被不当获得或使用,失去合作伙伴关系和声誉。

违反规则还会导致运营成本。企业可能需要:

  • 审查其架构;

  • 更改数据存储和处理工作流程;

  • 删除非法收集的数据集;

  • 实施合规流程;

  • 维护日志并管理用户同意。

在某些情况下,公司在发现采集关键数据源的违规行为后,完全关闭了一种产品。

有时从事自动化数据收集的公司和专家使用额外的解决方案——例如,反检测浏览器,如Octo Browser。它们帮助更有选择地管理网络参数,例如,使用不同的IP地址和更改设备的数字指纹。这些工具也使得可以在网络抓取时控制请求速率,以在会话之间分配负载。所有这些确保更负责任的抓取。这减少了平台自动阻止和附加检查,如CAPTCHA的风险。然而,从法律的角度来看,使用这些解决方案并不免除您在抓取违反网站规则或国家法律时的责任。

与web抓取相关的法院案例

LinkLinkedIn versus hiQ Labs(美国,2019到2022)

此案例是美国的一个关键先例。它确定了收集公开数据不违反CFAA。hiQ分析公开的LinkedIn资料,而社交网络试图阻止抓取,称其构成未经授权的访问。第九巡回上诉法院裁定,如果数据是公开的而且不需要授权,那么收集它是合法的。

这个决定设定了一个标准:抓取具有公共访问权限的公共页面(作为用户无需登录)不被视为违规。然而,法院指出,试图访问网站的私人区域则被视为未经授权的访问。

Craigslist versus 3Taps(美国,2013年)

加利福尼亚州北区联邦法院裁定,网络抓取由于绕过技术限制而违反了CFAA。3Taps从Craigslist收集公告并将其重新发布在自己的平台上。即使在收到官方的停止通知和IP阻止后,公司仍然通过代理继续抓取页面。

法院认为,任何在明确禁止和阻止后进行的访问都被视为未经授权。此案例表明抓取本身并不总是非法,但绕过技术保护措施构成严重违规。

Facebook versus Power Ventures(美国,2009年)

Power Ventures未经社交网络的同意抓取关于用户朋友及其活动的数据,包括绕过认证。此外,Power Ventures无视Facebook的警告通知。

法院裁定这违反了CFAA以及计算机安全法律。即便有用户授权访问他们的数据(授予给Facebook),第三方不能为了批量数据收集绕过平台的技术保护。此决定成为评估抓取私人系统合法性以及遵循平台规则的关键先例。

Ryanair versus Booking.com(美国,2025年)

Ryanair指控Booking.com在明令禁止和技术限制的情况下进行未经授权的航班和价格数据抓取。最初,陪审团发现访问未被授权。然而,在2025年,法官审查了案件并指出,Ryanair未证明实际伤害。因此,CFAA不能适用于这个案件。

最终,双方达成协议。Booking.com可以在其遵守访问规则和维持价格透明度的情况下合法转售Ryanair机票。该案件表明绕过抓取过程中的限制具有风险,而证明实际伤害和达成和解往往是决定性的。

结论

网络抓取本身不被视为非法。正确使用时,它是收集和分析数据以及改善商业流程的重要工具。然而,安全抓取需要经过仔细考虑的方法。为了降低风险:

  • 尽可能使用平台的官方API;

  • 遵循速率限制和请求频率规则;

  • 仅收集您真正需要的数据;

  • 不绕过平台的技术保护措施;

  • 避免抓取个人数据;

  • 尊重版权和知识产权。

在开始网络抓取之前,始终查看适用法律法规、网站的ToS以及潜在风险。

常见问题

网络抓取合法吗?

不,网络抓取本身并不被禁止。然而,它的合法性取决于收集的数据内容和方式。可以收集公开的事实信息。问题可能出现在抓取器违反网站规则、无合法依据处理个人数据或访问受版权保护或受限资料时。使用透明抓取方法而不绕过技术保护措施也很重要。

网络抓取在美国合法吗?

在美国,网络抓取的合法性取决于是否违反CFAA公共页面。可以进行分析,但绕过登录、付费订阅、IP封锁或其他障碍可能被视为违法行为。著名的例子是LinkedIn对于hiQ Labs案例。法院允许从公开资料中收集数据,但强调任何企图访问网站私人区域的行为都会将抓取转变成违法行为。

网络抓取可以用于商业或研究目的吗?

是的,这些是网络抓取最常见的用途之一。然而,必须满足几个条件。商业项目必须尊重版权,遵循平台规则,并避免收集个人数据。对于研究目的,重要的是使用公开或匿名的信息,避免访问受保护的网站区域,并在分析过程中转换用于发布的数据。最关键的请求是不要绕过技术限制或提取无合法权或授权的数据。

随时获取最新的Octo Browser新闻

通过点击按钮,您同意我们的 隐私政策

随时获取最新的Octo Browser新闻

通过点击按钮,您同意我们的 隐私政策

随时获取最新的Octo Browser新闻

通过点击按钮,您同意我们的 隐私政策

立即加入Octo Browser

或者随时联系客户服务,如果您有任何问题。

立即加入Octo Browser

或者随时联系客户服务,如果您有任何问题。

立即加入Octo Browser

或者随时联系客户服务,如果您有任何问题。

©

2026年

Octo Browser

©

2026年

Octo Browser

©

2026年

Octo Browser