Làm thế nào để kiếm tiền với việc cào dữ liệu web vào năm 2026?

4/4/24

Làm thế nào để kiếm tiền từ web scraping vào năm 2026?

Pierluigi Vinciguerra

Interview with Pierluigi Vinciguerra, Databoutique

Dữ liệu nào được tìm kiếm nhiều nhất vào năm 2025? Những loại/chủ đề/danh mục dữ liệu nào phổ biến nhất?

Rất khó để nói, vì thu thập dữ liệu từ web, mặc dù nó đang trở thành xu hướng phổ biến kể từ các phát triển mới nhất trong AI và LLMs, vốn dựa rất nhiều vào nó, nhưng nó vẫn còn xa việc được chấp nhận rộng rãi.

Một trong những trường hợp sử dụng thường thấy nhất của thu thập dữ liệu từ web là so sánh giá và thông tin thị trường: mỗi công ty đều muốn biết sản phẩm của họ đang được bán ở đâu và với giá nào, và cách mà đối thủ cạnh tranh của họ đang hành xử.

Một thông tin giá trị khác đến từ mức tồn kho ẩn trên một số trang web. Hãy tưởng tượng có thể giám sát một công ty bằng cách thu thập hàng ngày mức tồn kho trong các cửa hàng hoặc kho hàng của họ: bằng cách làm như vậy, bạn có thể dễ dàng ước tính doanh thu của họ, sản phẩm tốt nhất, và vân vân. Điều này đòi hỏi thu thập dữ liệu một cách chính xác nhưng như bạn có thể tưởng tượng là một mỏ vàng.

Cuối cùng nhưng không kém phần quan trọng, chúng ta có tất cả dữ liệu về vị trí: Airbnb, Khách sạn, Bất động sản. Chúng có thể mô tả xu hướng kinh tế của một quốc gia hoặc thành phố nếu được thu thập trong một thời gian dài.

Có những cách nào để kiếm tiền thông qua thu thập dữ liệu web ngày nay? Ai sẽ là những người mua tiềm năng, và hiện có những nền tảng hay thị trường nào?

Tôi có thể thấy ba cách để kiếm tiền với thu thập dữ liệu web, và chúng không loại trừ lẫn nhau.

Cách đầu tiên và rõ ràng nhất là làm một số dự án nhỏ như một freelancer. Bạn có thể xem nó như công việc từ 9 giờ sáng đến 5 giờ chiều của bạn.

Sau đó, bạn có thể bán mã nguồn của mình ở những nơi như Apify Store, nơi bạn có thể bán mã nguồn của mình (họ gọi đó là Actor) và mọi người có thể chạy nó trên nền tảng Apify và nhận kết quả.

Cuối cùng nhưng không kém phần quan trọng, bạn có thể bán bộ dữ liệu kết quả từ trình thu thập của bạn trên Databoutique.com. Đây là một thị trường mới cho dữ liệu thu thập từ web, chúng tôi vừa mới mở cửa vài tháng trước và chúng tôi đang làm việc để mang thêm lưu lượng truy cập cho nền tảng trong khi phát triển thêm tính năng mới mỗi tuần, vì vậy tiếc rằng hiện tại, bạn sẽ không trở nên giàu có chỉ sau một đêm.

Ý tưởng đằng sau nó khá đơn giản: cho đến ngày nay, thu thập dữ liệu từ web giống như một bộ đồ may đo: nó đắt, được làm riêng cho bạn, và người bán sẽ gặp nhiều khó khăn khi bán cùng một thứ cho người mua khác.
Chúng tôi muốn bán áo sơ mi H&M thay vào đó: những tập hợp dữ liệu tiêu chuẩn đáp ứng nhu cầu cơ bản của người mua, kiểm tra chất lượng nhưng với giá thấp hơn.

Hãy suy nghĩ về điều này: ngay cả khi bạn có một Saas dựa vào dữ liệu thu thập từ web, về lý thuyết dịch vụ là giống nhau cho mọi người, bạn sẽ luôn cần thêm một số trang web mới để thu thập cho những khách hàng mới, và điều này sẽ làm giải pháp của bạn đắt đỏ, giảm số lượng khách hàng tiềm năng. Nhưng cũng đúng rằng nếu những trang web này mới mẻ đối với tôi, chắc chắn sẽ có ai đó đã và đang thu thập dữ liệu từ chúng.

Chúng tôi đã tạo ra một thị trường dữ liệu nơi mọi người đã và đang thu thập một số trang web có thể tải lên tập dữ liệu của họ (nếu họ tuân thủ các quy định), thích hợp với một số sơ đồ dữ liệu định sẵn. Theo cách này, chúng tôi đang xây dựng một danh mục khổng lồ các tập dữ liệu, mà vì chúng được chuẩn hóa và kiểm tra chất lượng, có thể được gói gọn với các bộ dữ liệu của nhà cung cấp khác, tăng cơ hội được mua. Và càng nhiều một tập dữ liệu được mua, số tiền để có nó càng ít do chi phí trích xuất là như nhau, và giá càng thấp, càng nhiều người mua nó sẽ thu hút, tạo ra một vòng quay tích cực cho việc chấp nhận rộng rãi của thu thập dữ liệu từ web.

Hộp công cụ của một người thu thập dữ liệu từ web bao gồm những gì? Phần mềm và dịch vụ nào sẽ hiệu quả trong việc thu thập dữ liệu?

Mọi thứ thay đổi rất nhiều từ khi tôi bắt đầu thu thập dữ liệu từ web 10 năm trước: ngày nay bộ công cụ cho một người thu thập dữ liệu từ web khá phong phú. Đầu tiên, bạn sẽ cần một khung công tác thu thập dữ liệu từ web như Scrapy trong Python, cho tất cả các trang web không có bất kỳ biện pháp chống bot nào được cài đặt.

Sau đó, bạn sẽ cần một hoặc nhiều nhà cung cấp proxy, khi các hoạt động của bạn bắt đầu mở rộng.

Ở trên, bạn sẽ cần một công cụ tự động hóa trình duyệt như Playwright, Puppeteer, hoặc Selenium, khi mọi thứ bắt đầu trở nên phức tạp.

Cuối cùng nhưng không kém phần quan trọng, đối với các trang web có bảo vệ dựa mạnh vào vân tay trình duyệt, bạn sẽ cần một trình duyệt chống phát hiện như Octo để giả lập một người dùng thật đang duyệt chúng.

Ở giữa các lớp vĩ mô này, có hàng tấn công cụ cụ thể cho một số vấn đề, như vân tay TLS hoặc di chuyển chuột giống con người.

Thách thức kỹ thuật lớn nhất đối với thu thập dữ liệu từ web vào năm 2025 sẽ là gì? Thu thập dữ liệu từ web có phải đối mặt với những thách thức mới do LLMs và AI không?

Thách thức kỹ thuật lớn nhất vẫn là các biện pháp né tránh chống bot. Có ngày càng nhiều kỹ thuật tinh vi hơn để chặn bot nhưng may mắn thay chúng tôi cũng có ngày càng nhiều công cụ để cạnh tranh. Tôi nghĩ rằng LLMs và AI không phải là một vấn đề lớn, chúng có thể bổ trợ cho việc viết mã nguồn. Hiện tại chúng tôi đang thấy một số sản phẩm tiếp cận thị trường mà được hỗ trợ bởi AI, cả cho việc tự động phân tích cú pháp HTML và né tránh chống bot.

Những trang web nào khó thu thập nhất? Bạn có thể cung cấp một chút thông tin về hệ thống bảo vệ khó vượt qua không?

Nói chung, các trang web nơi bán những mặt hàng khan hiếm (như túi Hermes hoặc giày thể thao, vé, và vân vân) là nơi khó thu thập nhất. Trong những trường hợp này, thông thường một vân tay hợp lệ là không đủ mà trình thu thập cũng nên hành xử như một con người, như nhấp chuột xung quanh thay vì duyệt trang bằng cách sử dụng URL trực tiếp và vân vân. Thông thường trên những trang web này, bạn bị chặn ngay cả khi bạn duyệt chúng và làm điều gì đó kỳ lạ như nhấp chuột rất nhanh xung quanh.

Có vấn đề pháp lý nào mà người thu thập dữ liệu web nên chú ý không? Bạn có thể bình luận về vụ kiện gần đây giữa Bright Data và Meta và liệu nó có thay đổi nhận thức và trạng thái pháp lý của thu thập dữ liệu web không?

Tôi không phải là luật sư, nên nếu độc giả có bất kỳ sự nghi ngờ nào về các hoạt động của họ thì tốt hơn nên hỏi một luật sư thực sự thay vì nghe gợi ý của tôi. Dù sao, có một số nguyên tắc vàng để an toàn 100% khi thu thập thông tin:

Không thu thập bất kỳ thông tin cá nhân nào.
Không thu thập bất kỳ thông tin có bản quyền nào, đặc biệt nếu bạn định bán lại chúng như chúng đang có.
Không thu thập bất kỳ thứ gì sau một lần đăng nhập hoặc không công khai truy cập được
Không gây tổn hại đến doanh nghiệp của trang web mục tiêu.

Về bản án Meta vs Bright Data, quyết định rất cụ thể cho vụ kiện và điều khoản dịch vụ của Meta nên tôi sẽ không khái quát bất cứ điều gì từ đó. Nhưng sự thật là thu thập thông tin từ web, khi thực hiện một cách có đạo đức và tôn trọng trang web mục tiêu, là một thực tiễn hoàn toàn hợp pháp và không nên được xem như một vùng xám. Cuối cùng, nó là một công cụ như một chiếc búa: nó có thể được sử dụng cho tốt, như xây nhà, hoặc cho xấu, như đập vỡ kính xe đỗ. Tùy thuộc vào người chịu trách nhiệm sử dụng công cụ đó để hiểu điều gì có thể được thực hiện và điều gì không.

Có nơi nào mà một người có thể học hỏi về thu thập dữ liệu web và tương tác với cộng đồng không?

Cảm ơn câu hỏi này, vì vậy tôi có thể quảng cáo không phân biệt. Tôi đã bắt đầu gần 2 năm trước bản tin của mình về thu thập dữ liệu web có tên là Câu lạc bộ Thu thập Dữ liệu Web. Tôi viết về kinh nghiệm của tôi trong thu thập dữ liệu web, công cụ tôi đang thử nghiệm, cách vượt qua chống bot, và vân vân.

Ý tưởng đến với tôi vì tôi không thể tìm thấy một nơi nào để biết thực tế phải làm gì khi tôi cần vượt qua một số chống bot. Vì điều này, tôi bắt đầu chia sẻ ghi chú của tôi với thế giới và bây giờ tôi có hơn 2400 người đăng ký vào bản tin.

Nhưng cũng có những blog tuyệt vời khác dành cho những người muốn đi sâu hơn vào những gì đang xảy ra bên dưới chúng ta của chống bot: Trickster.dev là một trong số đó, nhưng cũng là botting.rocks và webscraping.wiki.

Làm thế nào để kiếm tiền với việc cào dữ liệu web vào năm 2026?

Pierluigi Vinciguerra

Dữ liệu nào được tìm kiếm nhiều nhất vào năm 2025? Những loại/chủ đề/danh mục dữ liệu nào phổ biến nhất?

Có những cách nào để kiếm tiền thông qua thu thập dữ liệu web ngày nay? Ai sẽ là những người mua tiềm năng, và hiện có những nền tảng hay thị trường nào?

Hộp công cụ của một người thu thập dữ liệu từ web bao gồm những gì? Phần mềm và dịch vụ nào sẽ hiệu quả trong việc thu thập dữ liệu?

Thách thức kỹ thuật lớn nhất đối với thu thập dữ liệu từ web vào năm 2025 sẽ là gì? Thu thập dữ liệu từ web có phải đối mặt với những thách thức mới do LLMs và AI không?

Những trang web nào khó thu thập nhất? Bạn có thể cung cấp một chút thông tin về hệ thống bảo vệ khó vượt qua không?

Có vấn đề pháp lý nào mà người thu thập dữ liệu web nên chú ý không? Bạn có thể bình luận về vụ kiện gần đây giữa Bright Data và Meta và liệu nó có thay đổi nhận thức và trạng thái pháp lý của thu thập dữ liệu web không?

Có nơi nào mà một người có thể học hỏi về thu thập dữ liệu web và tương tác với cộng đồng không?

Tham gia Octo Browser ngay

Tham gia Octo Browser ngay

Tham gia Octo Browser ngay