Cách mà các captcha thế hệ tiếp theo hoạt động và tại sao điều đó quan trọng cho tự động hóa

17/3/26

Markus_automation

Expert in data parsing and automation

Captcha hiện đại đã từ lâu tiến xa hơn những câu đố đơn giản được thiết kế để ngăn chặn bot. Chúng là các hệ thống phức tạp về xác minh hành vi và môi trường, phân tích không chỉ mã đã nhập, mà còn cả vân tay kỹ thuật số của người dùng, đặc điểm của môi trường của họ, và các mô hình hành vi. Giao diện hiển thị chỉ là tầng cuối cùng của quy trình xác minh nhiều giai đoạn.

Đối với các nhà phát triển của scrapers, script tự động, và cơ sở hạ tầng chống phát hiện, việc hiểu cơ chế nội bộ của những giải pháp này là vô cùng quan trọng. Trong thực tế, làm việc với captcha bao gồm hai khía cạnh chính:

Đánh giá — ai tính toán hệ số rủi ro (điểm) và mô hình nào đang được sử dụng.
Tín hiệu — dữ liệu nào được thu thập từ phía khách hàng và cách nó được truyền đến máy chủ xác thực.

Các hệ thống khác nhau thực hiện các cơ chế này theo những cách khác nhau. Trong bài viết này, chúng tôi sẽ xem xét ba giải pháp phổ biến và tiên tiến về kỹ thuật nhất: reCAPTCHA v3, Cloudflare Turnstile, và hCaptcha và thảo luận về kiến trúc của chúng, nguồn tín hiệu, và cách tiếp cận đối với đánh giá rủi ro.

Nội dung

Giữ kín danh tính, tận dụng tính năng nhiều tài khoản và đạt được mục tiêu của bạn với trình duyệt chống phát hiện chất lượng cao nhất trên thị trường.

Đăng kí

Bạn có muốn thử Octo Browser với giá giảm không?
Sử dụng mã khuyến mãi OCTOSCRAPER để được giảm giá 30% cho bất kỳ gói đăng ký nào. Ưu đãi này chỉ dành cho người dùng mới.

Cách hoạt động của captchas

Trước tiên, chúng ta hãy xem cách mỗi giải pháp captcha hoạt động:

reCAPTCHA v3 (Google)

Một ví dụ điển hình của mô hình chấm điểm vô hình. Trình duyệt thu thập dữ liệu về hành vi người dùng và trao đổi với Google để lấy một mã thông báo.

Mã thông báo này được gửi tới máy chủ của trang web, sau đó gửi yêu cầu bí mật tới Google. Mục đích là để xác minh mã thông báo và nhận phản hồi JSON với điểm rủi ro dao động từ 0.0 (bot) đến 1.0 (con người) và nhãn hành động.

Nếu người dùng nhận được điểm thấp (< 0.5), chủ sở hữu trang web cấu hình kịch bản để xử lý khách truy cập đó — chặn hoàn toàn hoặc hiển thị reCAPTCHA v2 để thêm xác minh (đèn giao thông phổ biến).

Ví dụ tích hợp: Trên một trang có captcha, kịch bản được kết nối như sau:

<script src="https://www.google.com/recaptcha/api.js?render=Your_site_key">

<script src="https://www.google.com/recaptcha/api.js?render=Your_site_key">

Khi hành động mục tiêu xảy ra (ví dụ, khi nhấn nút “Đăng nhập”), phương thức sau được gọi

grecaptcha.execute('YOUR_SITE_KEY', {action: 'login'}).then(function(token) {
     // This token is sent to the website backend along with the form data
 });

grecaptcha.execute('YOUR_SITE_KEY', {action: 'login'}).then(function(token) {
     // This token is sent to the website backend along with the form data
 });

The token is valid for only 2 minutes and can be used for verification only once.

Mã thông báo chỉ có giá trị trong vòng 2 phút và chỉ có thể được sử dụng để xác minh một lần.

Một lưu ý quan trọng cho scraper: điểm số không chỉ phụ thuộc vào hành vi mà còn vào các thuộc tính của doanh nghiệp trang web. Khi Google tăng trọng số của các vân tay TLS ClientHello, điểm số giảm xuống dưới 0.1 ngay cả với một mã thông báo hợp lệ nếu yêu cầu của bạn không mô phỏng trình duyệt Chrome 122+ (hàm băm JA3). Sau đây là một ví dụ về xác minh backend:

import requests

# client_ip must be obtained from request.remote_addr or headers 
response = requests.post('https://www.google.com/recaptcha/api/siteverify', data={
    'secret': 'YOUR_SECRET_KEY',
    'response': token,
    'remoteip': client_ip 
}).json()

score = response.get('score', 0) 
if score < 0.5:
    # Fallback to v2 or blocking
    pass

import requests

# client_ip must be obtained from request.remote_addr or headers 
response = requests.post('https://www.google.com/recaptcha/api/siteverify', data={
    'secret': 'YOUR_SECRET_KEY',
    'response': token,
    'remoteip': client_ip 
}).json()

score = response.get('score', 0) 
if score < 0.5:
    # Fallback to v2 or blocking
    pass

Cloudflare Turnstile

Một nền tảng xác minh thông minh không có câu đố hình ảnh, tự động chọn một tập hợp các bài kiểm tra trình duyệt nền. Trong hầu hết các trường hợp, nó thực hiện xác minh mà người dùng không hề hay biết — không cần nhấp chuột, chọn hình ảnh hoặc các hành động rõ ràng khác.

Các loại kiểm tra chính bao gồm:

Bằng chứng về công việc. Trình duyệt nhận một tác vụ tính toán (thường liên quan đến băm) tạo ra một tải ngắn hạn cho CPU. Mục tiêu là tăng chi phí của các yêu cầu tự động hàng loạt.
Kiểm tra độ toàn vẹn của môi trường. Hệ thống so sánh các tham số khách hàng đã khai báo (ví dụ, User-Agent) với khả năng thực tế của động cơ. Bất kỳ sự không khớp nào giữa các đặc điểm môi trường đã khai báo và thực tế đều làm tăng điểm rủi ro.
Khả dụng của API. Hỗ trợ các tiêu chuẩn web hiện đại được phân tích (Canvas, WebAudio, WebRTC, v.v.). Bots chạy trên động cơ lỗi thời hoặc bị tước bỏ thường thất bại trong giai đoạn này do việc triển khai không đầy đủ của các giao diện như vậy.
Xác thực triển khai. Hệ thống kiểm tra không chỉ sự hiện diện của APIs mà còn cả tính xác thực hành vi của cách chúng hoạt động; ví dụ, việc hiển thị Canvas có phù hợp với hồ sơ tham khảo của Chrome thực hoặc chứa các hiện vật điển hình của các trình điều khiển ảo hóa hoặc thay thế.

Ngoài ra, Turnstile kiểm tra API Pin và Chính sách Quyền, vì các bot chạy Node.js ở chế độ headless thường xử lý không chính xác navigator.getBattery(). Để bỏ qua điều này, vá nó thông qua puppeteer-extra:

await page.evaluateOnNewDocument(() => {
  const originalQuery = window.navigator.permissions.query;
  window.navigator.permissions.query = (parameters) => originalQuery(parameters).then(() => ({ state: 'granted' }));
});

await page.evaluateOnNewDocument(() => {
  const originalQuery = window.navigator.permissions.query;
  window.navigator.permissions.query = (parameters) => originalQuery(parameters).then(() => ({ state: 'granted' }));
});

Sau những kiểm tra này, các mô hình ML được áp dụng để đánh giá kết quả và một mã thông báo ngắn hạn sẽ được phát hành.

Kết nối script hoạt động tương tự như reCAPTCHA. Ví dụ tích hợp:

<script src="https://challenges.cloudflare.com/turnstile/v0/api.js" async defer></script>

<script src="https://challenges.cloudflare.com/turnstile/v0/api.js" async defer></script>

Phần tử widget:

<div class="cf-turnstile" data-sitekey="yourSiteKey"></div>

<div class="cf-turnstile" data-sitekey="yourSiteKey"></div>

Turnstile hoạt động ở hai chế độ:

Quản lý — một widget được hiển thị trên trang. Trong hầu hết các trường hợp, nó tự động vượt qua xác minh và ngay lập tức chuyển sang “xanh” mà không cần sự tham gia của người dùng.
Vô hình — xác minh được thực hiện hoàn toàn ở nền và không được hiển thị trên giao diện.

Nếu hệ thống phát hiện rủi ro tăng cao hoặc bất thường trong các tín hiệu, nó có thể tăng cường xác minh và yêu cầu thêm hành động — ví dụ, xác minh bằng cách kiểm tra hộp.

Sau khi vượt qua xác minh, widget đặt một mã thông báo vào trường biểu mẫu ẩn cf-turnstile-response. Máy chủ trang web nhận mã thông báo này và gửi yêu cầu POST tới Cloudflare: https://challenges.cloudflare.com/turnstile/v0/siteverify (tham số: secret và response=token).

Mã thông báo, cũng như reCAPTCHA, chỉ sử dụng một lần, nhưng nó sống lâu hơn — trong 5 phút. Nếu bạn nhận được success: false, trường error-codes sẽ chứa lý do (ví dụ, invalid-input-response nghĩa là mã thông báo đã hết hạn hoặc bị giả mạo).

hCaptcha

Một mô hình xác minh lai và một giải pháp thay thế tư nhân cho các giải pháp của Google. Trong cấu hình cơ bản, nó sử dụng hộp kiểm “Tôi là con người” quen thuộc. Nếu phát hiện tín hiệu đáng ngờ, hệ thống tăng cường xác minh và cung cấp các nhiệm vụ hình ảnh phức tạp hơn — thường đòi hỏi cao hơn so với Google.

Ngoài kịch bản tiêu chuẩn, hCaptcha có sẵn ở chế độ Vô hình và Thụ động, nơi xác minh xảy ra với sự tham gia của người dùng tối thiểu hoặc không. Đối với khách hàng cấp doanh nghiệp, có một cơ chế tương tự mô hình chấm điểm của Google, cho phép đánh giá rủi ro mà không hiển thị các nhiệm vụ tương tác.

Ví dụ tích hợp: Kết nối bình thường. Cú pháp kịch bản tương thích với các giải pháp của đối thủ:

<script src="https://js.hcaptcha.com/1/api.js" async defer></script>
 <div class="h-captcha" data-sitekey="YOUR_SITE_KEY"><

<script src="https://js.hcaptcha.com/1/api.js" async defer></script>
 <div class="h-captcha" data-sitekey="YOUR_SITE_KEY"><

Sau khi vượt qua captcha, một trường ẩn h-captcha-response xuất hiện trong biểu mẫu. Máy chủ trang web xác minh nó bằng một yêu cầu POST: https://api.hcaptcha.com/siteverify. Các tham số: secret, response, và nên có remoteip.

Phản hồi máy chủ: Trong phiên bản miễn phí, mọi thứ rất đơn giản:

{
   "success": true,  // or false
   "challenge_ts": "..."
 }

{
   "success": true,  // or false
   "challenge_ts": "..."
 }

Trong phiên bản Enterprise, JSON có các trường bổ sung với điểm rủi ro và lý do từ chối.

Bảng so sánh theo tiêu chí

Tiêu chí	reCAPTCHA v3 (Google)	Cloudflare Turnstile	hCaptcha
Logic phát hiện (nơi bạn có thể mất điểm)	Lịch sử hành vi. Hệ thống xem xét dấu chân kỹ thuật số của người dùng trong hệ sinh thái Google. Thiếu lịch sử tìm kiếm, cookie Google, phiên được ủy quyền, hoặc IP có trong danh sách đen về danh tiếng làm giảm trực tiếp điểm rủi ro cuối cùng.	Môi trường và vân tay. Kiểm tra nghiêm ngặt độ nhất quán của trình duyệt (vân tay TLS, Canvas, WebGL). Bất kỳ sự không khớp nào giữa các tham số Headless và Chrome thực đều dẫn đến thất bại.	IP và hành vi. Phản ứng mạnh mẽ với các IP trung tâm dữ liệu và chuyển động chuột không tự nhiên. Thường đưa ra các nhiệm vụ hình ảnh phức tạp.
Khó khăn khi vượt qua	Cao. Lấy được mã thông báo dễ dàng, nhưng để có được điểm số cao rất khó. Bạn sẽ cần các hồ sơ đã chuẩn bị kỹ và proxy gia cư.	Cao. Có thể bị vượt qua với trình duyệt chống phát hiện chất lượng cao hoặc vá môi trường JS thích hợp.	Trung bình/Cao. Biện pháp bảo vệ chính là hình ảnh. Có thể vượt qua bằng cách sử dụng các dịch vụ nhận dạng hình ảnh dành riêng (mặc dù nhiều cái đã trở nên không đầy đủ).
Tải tài nguyên	Thấp. Kịch bản tự nó nhẹ nhàng nhưng cần tài nguyên để duy trì hồ sơ (cookie, lịch sử).	Cao. Sử dụng bằng chứng công việc và tải CPU với các tác vụ toán học.	Cao (thời gian/tiền bạc). Yêu cầu thanh toán cho giải pháp hoặc thời gian bỏ ra để nhấp chuột.
Sự phụ thuộc vào JS/Cookies	Quan trọng. Không hoạt động nếu không có JS. Để đạt được điểm >0.3, cookie (SID/HSID) gần như bắt buộc.	Cao. Không hoạt động nếu không có JS. Cookie ít quan trọng hơn so với độ toàn vẹn của vân tay và một IP sạch.	Trung bình. Yêu cầu JS. Cookie là bắt buộc thứ yếu; một IP sạch là quan trọng. Thường được sử dụng như là một trình giữ chỗ nhấp chuột.

Chiến lược vượt qua captcha

Trong các nhiệm vụ liên quan đến việc thu thập dữ liệu quy mô lớn, sử dụng nhiều tài khoản, và tương tác mạnh mẽ với giao diện web, ba phương pháp có thể được sử dụng để giải quyết captchas. Lựa chọn phương pháp phụ thuộc vào lưu lượng truy cập, độ ổn định cần thiết, và mức độ bảo vệ của tài nguyên mục tiêu.

Ủy thác: sử dụng dịch vụ trung gian

Phương pháp phổ biến nhất cho các hệ thống mở rộng. Bạn không tự giải quyết nhiệm vụ; thay vào đó, bạn gửi nó đến một trung gian giải quyết captcha cho bạn và trả lại mã thông báo.

Nhưng chỉ đơn giản lấy được mã thông báo từ dịch vụ là chưa đủ. Trang web sẽ không biết rằng captcha đã được giải quyết cho đến khi bạn áp dụng mã thông báo. Điều này thường được thực hiện thông qua việc chèn JavaScript:

Bạn cần tìm trường ẩn (thường là g-recaptcha-response) và chèn mã thông báo ở đó.
Phần quan trọng: bạn phải gọi hàm callback để kích hoạt xác minh phía máy chủ. Nếu không có bước này, nút “Gửi” có thể vẫn còn không hoạt động.

Delegating: using an intermediary service

# Insert token into hidden field
driver.execute_script("document.getElementsByName('g-recaptcha-response')[0].value = arguments[0];", token)
# Call the callback function (a trigger for the website)
driver.execute_script(f"submitCallback('{token}');")

# Insert token into hidden field
driver.execute_script("document.getElementsByName('g-recaptcha-response')[0].value = arguments[0];", token)
# Call the callback function (a trigger for the website)
driver.execute_script(f"submitCallback('{token}');")

Những khó khăn có thể gặp phải:

Khớp User-Agent: Điều quan trọng cực kỳ là User-Agent được sử dụng trong quá trình nhận diện bởi dịch vụ phải khớp với cái bạn sử dụng khi nộp mã thông báo. Nếu dịch vụ giải captcha với Chrome 139 nhưng bạn nộp mã thông báo với tiêu đề Chrome 140, mã thông báo sẽ bị từ chối (điều này đặc biệt quan trọng đối với Turnstile).
Khớp proxy: Đối với reCAPTCHA v3 và hCaptcha Enterprise, rất mong muốn gửi proxy của bạn cho dịch vụ nhận diện để captcha được giải quyết từ cùng một địa chỉ IP mà bạn sẽ sử dụng để truy cập trang web. Nếu không, Google sẽ phát hiện sự không khớp.
Thông số động: Thường chỉ mỗi SiteKey là không đủ. Ví dụ, nếu bạn làm việc với Google SERP hoặc các hệ thống bảo vệ phức tạp khác, họ có thể yêu cầu truyền tham số data-s, tham số được tạo động mỗi lần trang tải. Nếu bạn gửi SiteKey đến dịch vụ giải mà không có tham số này, mã thông báo sẽ hợp lệ nhưng trang web sẽ không chấp nhận nó.

Sự giả lập trình duyệt (Puppeteer/Selenium + Stealth)

Được sử dụng khi trang kiểm tra môi trường JS quá nghiêm ngặt (Turnstile, hCaptcha Enterprise). Puppeteer hoặc Selenium chuẩn sẽ bị phát hiện ngay do thuộc tính navigator.webdriver = true.

Do đó cần sử dụng các công cụ bổ sung: Puppeteer-extra-plugin-stealth, Undetected Chromedriver hoặc Octo Browser qua API.

Bản chất của phương pháp là trình duyệt sử dụng nhân Chromium được sửa đổi (nó giả mạo nhân). Các vân tay quan trọng (Canvas, WebGL, WebRTC, Audio) được giả mạo ở cấp độ mã C++ gốc thay vì thông qua các chèn JS.

Đây là điểm mấu chốt, vì các biện pháp bảo vệ như Turnstile tìm kiếm dấu vết can thiệp trong môi trường JS, nhưng trong Octo thì không có dấu vết nào cả. Trình duyệt sử dụng nhiễu và tham số phần cứng duy nhất, vượt qua các kiểm tra toàn vẹn, và tự động bạn nhận được mã thông báo.

Phương pháp này khá yêu cầu về tài nguyên RAM và CPU, do đó không phù hợp cho hàng nghìn luồng. Tuy nhiên, cho 50–100 luồng đây là giải pháp tối ưu.

Nếu bạn cần 100+ luồng, bạn có thể kết hợp nó với Docker sử dụng cờ --no-sandbox --disable-gpu. Với Playwright, bạn có thể mong đợi khoảng 70% tỷ lệ thành công khi vượt qua Turnstile sử dụng plugin stealth và proxy gia cư. Như một lựa chọn thay thế, bạn có thể sử dụng Octo Browser API (chế độ headless không có giao diện đồ họa).

Các yêu cầu cấp độ HTTP (vân tay TLS)

Đây là một phương pháp tiên tiến cho việc thu thập dữ liệu quy mô lớn sử dụng Go, Python Requests, và C#, nơi trình duyệt tự nó không được sử dụng. Thay vào đó, dấu vân tay mạng của nó được tái tạo.

Các thư viện HTTP tiêu chuẩn như Python Requests hình thành một cú bắt tay TLS với sự khác biệt đặc trưng so với cú bắt tay của trình duyệt tiêu chuẩn: ví dụ, thứ tự tham số và chữ ký kết nối khác nhau. Cloudflare phát hiện ra những sự khác biệt này và có thể chặn yêu cầu trước khi kịch bản captcha thậm chí tải.

Có các thư viện có khả năng bắt chước dấu vân tay TLS của một trình duyệt thực. Điều này làm cho có thể vượt qua các kiểm tra Cloudflare Turnstile mà không cần khởi động trình duyệt.

Tại sao bot của bạn nhận được điểm số thấp hoặc bị cấm

Nếu bạn gửi captcha tới một dịch vụ trung gian, chèn mã thông báo mà nó trả lại, nhưng trang web vẫn không cho phép bạn truy cập, vấn đề rất có thể không phải là captcha tự nó mà là một trong những vấn đề sau:

Proxy bẩn. Các IP trung tâm dữ liệu bị Google và Cloudflare đánh dấu là có rủi ro cao mặc định. Giải pháp duy nhất trong trường hợp này là sử dụng proxy di động hoặc gia cư.
Thiếu chuẩn bị hồ sơ (liên quan đến reCAPTCHA v3). Bạn đang cố gắng truy cập trang web bằng một hồ sơ sạch không có lịch sử. Đối với reCAPTCHA v3, điều này rõ ràng chỉ ra rằng đó là một bot. Sử dụng các hồ sơ đã chuẩn bị kỹ với cookie SID/HSID đã lưu từ một phiên Google được ủy quyền.
Không nhất quán các tiêu đề. Thứ tự các tiêu đề trong yêu cầu không khớp với trình duyệt thực. Ví dụ, Chrome luôn gửi tiêu đề theo một thứ tự cụ thể (Host -> Connection -> sec-ch-ua...). Nếu thư viện của bạn gửi chúng khác đi, điều này sẽ là một lá cờ đỏ cho các hệ thống chống gian lận.

Kết luận

Vào năm 2026, tự động hóa yêu cầu một kiến trúc phức tạp và kiểm soát tất cả các cấp độ tương tác.

reCAPTCHA v3 không nên bị vượt qua bằng cách giải quyết nhiệm vụ mà bằng cách quản lý danh tiếng: nuôi dưỡng hồ sơ chất lượng, một lịch sử tương tác ổn định, và một môi trường nhất quán.

Cloudflare Turnstile đặt ra yêu cầu nghiêm ngặt đối với tính toàn vẹn của môi trường. Bất kỳ sự không khớp nào trong JS, API, hoặc vân tay TLS đều dẫn đến giảm sự tin cậy và tăng cường xác minh.

hCaptcha dựa nhiều hơn vào các nhiệm vụ hình ảnh, điều này làm cho nó dễ bị giảm sát hơn thông qua các mô hình nhận dạng hình ảnh máy tính hiện đại.

Làm việc với captchas ngày nay yêu cầu hiểu rõ nguyên tắc của các hệ thống chống bot hiện đại và khả năng quản lý vân tay kỹ thuật số tại mọi giai đoạn tương tác.

Đăng kí

Bạn có muốn thử Octo Browser với giá giảm không?
Sử dụng mã khuyến mãi OCTOSCRAPER để được giảm giá 30% cho bất kỳ gói đăng ký nào. Ưu đãi này chỉ dành cho người dùng mới.

Cách hoạt động của captchas

Trước tiên, chúng ta hãy xem cách mỗi giải pháp captcha hoạt động:

reCAPTCHA v3 (Google)

Một ví dụ điển hình của mô hình chấm điểm vô hình. Trình duyệt thu thập dữ liệu về hành vi người dùng và trao đổi với Google để lấy một mã thông báo.

Ví dụ tích hợp: Trên một trang có captcha, kịch bản được kết nối như sau:

<script src="https://www.google.com/recaptcha/api.js?render=Your_site_key">

Khi hành động mục tiêu xảy ra (ví dụ, khi nhấn nút “Đăng nhập”), phương thức sau được gọi

grecaptcha.execute('YOUR_SITE_KEY', {action: 'login'}).then(function(token) {
     // This token is sent to the website backend along with the form data
 });

Mã thông báo chỉ có giá trị trong vòng 2 phút và chỉ có thể được sử dụng để xác minh một lần.

import requests

# client_ip must be obtained from request.remote_addr or headers 
response = requests.post('https://www.google.com/recaptcha/api/siteverify', data={
    'secret': 'YOUR_SECRET_KEY',
    'response': token,
    'remoteip': client_ip 
}).json()

score = response.get('score', 0) 
if score < 0.5:
    # Fallback to v2 or blocking
    pass

Cloudflare Turnstile

Các loại kiểm tra chính bao gồm:

Bằng chứng về công việc. Trình duyệt nhận một tác vụ tính toán (thường liên quan đến băm) tạo ra một tải ngắn hạn cho CPU. Mục tiêu là tăng chi phí của các yêu cầu tự động hàng loạt.
Kiểm tra độ toàn vẹn của môi trường. Hệ thống so sánh các tham số khách hàng đã khai báo (ví dụ, User-Agent) với khả năng thực tế của động cơ. Bất kỳ sự không khớp nào giữa các đặc điểm môi trường đã khai báo và thực tế đều làm tăng điểm rủi ro.
Khả dụng của API. Hỗ trợ các tiêu chuẩn web hiện đại được phân tích (Canvas, WebAudio, WebRTC, v.v.). Bots chạy trên động cơ lỗi thời hoặc bị tước bỏ thường thất bại trong giai đoạn này do việc triển khai không đầy đủ của các giao diện như vậy.
Xác thực triển khai. Hệ thống kiểm tra không chỉ sự hiện diện của APIs mà còn cả tính xác thực hành vi của cách chúng hoạt động; ví dụ, việc hiển thị Canvas có phù hợp với hồ sơ tham khảo của Chrome thực hoặc chứa các hiện vật điển hình của các trình điều khiển ảo hóa hoặc thay thế.

await page.evaluateOnNewDocument(() => {
  const originalQuery = window.navigator.permissions.query;
  window.navigator.permissions.query = (parameters) => originalQuery(parameters).then(() => ({ state: 'granted' }));
});

Sau những kiểm tra này, các mô hình ML được áp dụng để đánh giá kết quả và một mã thông báo ngắn hạn sẽ được phát hành.

Kết nối script hoạt động tương tự như reCAPTCHA. Ví dụ tích hợp:

<script src="https://challenges.cloudflare.com/turnstile/v0/api.js" async defer></script>

Phần tử widget:

<div class="cf-turnstile" data-sitekey="yourSiteKey"></div>

Turnstile hoạt động ở hai chế độ:

Quản lý — một widget được hiển thị trên trang. Trong hầu hết các trường hợp, nó tự động vượt qua xác minh và ngay lập tức chuyển sang “xanh” mà không cần sự tham gia của người dùng.
Vô hình — xác minh được thực hiện hoàn toàn ở nền và không được hiển thị trên giao diện.

hCaptcha

Ví dụ tích hợp: Kết nối bình thường. Cú pháp kịch bản tương thích với các giải pháp của đối thủ:

<script src="https://js.hcaptcha.com/1/api.js" async defer></script>
 <div class="h-captcha" data-sitekey="YOUR_SITE_KEY"><

Phản hồi máy chủ: Trong phiên bản miễn phí, mọi thứ rất đơn giản:

{
   "success": true,  // or false
   "challenge_ts": "..."
 }

Trong phiên bản Enterprise, JSON có các trường bổ sung với điểm rủi ro và lý do từ chối.

Bảng so sánh theo tiêu chí

Tiêu chí	reCAPTCHA v3 (Google)	Cloudflare Turnstile	hCaptcha
Logic phát hiện (nơi bạn có thể mất điểm)	Lịch sử hành vi. Hệ thống xem xét dấu chân kỹ thuật số của người dùng trong hệ sinh thái Google. Thiếu lịch sử tìm kiếm, cookie Google, phiên được ủy quyền, hoặc IP có trong danh sách đen về danh tiếng làm giảm trực tiếp điểm rủi ro cuối cùng.	Môi trường và vân tay. Kiểm tra nghiêm ngặt độ nhất quán của trình duyệt (vân tay TLS, Canvas, WebGL). Bất kỳ sự không khớp nào giữa các tham số Headless và Chrome thực đều dẫn đến thất bại.	IP và hành vi. Phản ứng mạnh mẽ với các IP trung tâm dữ liệu và chuyển động chuột không tự nhiên. Thường đưa ra các nhiệm vụ hình ảnh phức tạp.
Khó khăn khi vượt qua	Cao. Lấy được mã thông báo dễ dàng, nhưng để có được điểm số cao rất khó. Bạn sẽ cần các hồ sơ đã chuẩn bị kỹ và proxy gia cư.	Cao. Có thể bị vượt qua với trình duyệt chống phát hiện chất lượng cao hoặc vá môi trường JS thích hợp.	Trung bình/Cao. Biện pháp bảo vệ chính là hình ảnh. Có thể vượt qua bằng cách sử dụng các dịch vụ nhận dạng hình ảnh dành riêng (mặc dù nhiều cái đã trở nên không đầy đủ).
Tải tài nguyên	Thấp. Kịch bản tự nó nhẹ nhàng nhưng cần tài nguyên để duy trì hồ sơ (cookie, lịch sử).	Cao. Sử dụng bằng chứng công việc và tải CPU với các tác vụ toán học.	Cao (thời gian/tiền bạc). Yêu cầu thanh toán cho giải pháp hoặc thời gian bỏ ra để nhấp chuột.
Sự phụ thuộc vào JS/Cookies	Quan trọng. Không hoạt động nếu không có JS. Để đạt được điểm >0.3, cookie (SID/HSID) gần như bắt buộc.	Cao. Không hoạt động nếu không có JS. Cookie ít quan trọng hơn so với độ toàn vẹn của vân tay và một IP sạch.	Trung bình. Yêu cầu JS. Cookie là bắt buộc thứ yếu; một IP sạch là quan trọng. Thường được sử dụng như là một trình giữ chỗ nhấp chuột.

Chiến lược vượt qua captcha

Ủy thác: sử dụng dịch vụ trung gian

Bạn cần tìm trường ẩn (thường là g-recaptcha-response) và chèn mã thông báo ở đó.
Phần quan trọng: bạn phải gọi hàm callback để kích hoạt xác minh phía máy chủ. Nếu không có bước này, nút “Gửi” có thể vẫn còn không hoạt động.

# Insert token into hidden field
driver.execute_script("document.getElementsByName('g-recaptcha-response')[0].value = arguments[0];", token)
# Call the callback function (a trigger for the website)
driver.execute_script(f"submitCallback('{token}');")

Những khó khăn có thể gặp phải:

Khớp User-Agent: Điều quan trọng cực kỳ là User-Agent được sử dụng trong quá trình nhận diện bởi dịch vụ phải khớp với cái bạn sử dụng khi nộp mã thông báo. Nếu dịch vụ giải captcha với Chrome 139 nhưng bạn nộp mã thông báo với tiêu đề Chrome 140, mã thông báo sẽ bị từ chối (điều này đặc biệt quan trọng đối với Turnstile).
Khớp proxy: Đối với reCAPTCHA v3 và hCaptcha Enterprise, rất mong muốn gửi proxy của bạn cho dịch vụ nhận diện để captcha được giải quyết từ cùng một địa chỉ IP mà bạn sẽ sử dụng để truy cập trang web. Nếu không, Google sẽ phát hiện sự không khớp.
Thông số động: Thường chỉ mỗi SiteKey là không đủ. Ví dụ, nếu bạn làm việc với Google SERP hoặc các hệ thống bảo vệ phức tạp khác, họ có thể yêu cầu truyền tham số data-s, tham số được tạo động mỗi lần trang tải. Nếu bạn gửi SiteKey đến dịch vụ giải mà không có tham số này, mã thông báo sẽ hợp lệ nhưng trang web sẽ không chấp nhận nó.

Sự giả lập trình duyệt (Puppeteer/Selenium + Stealth)

Do đó cần sử dụng các công cụ bổ sung: Puppeteer-extra-plugin-stealth, Undetected Chromedriver hoặc Octo Browser qua API.

Phương pháp này khá yêu cầu về tài nguyên RAM và CPU, do đó không phù hợp cho hàng nghìn luồng. Tuy nhiên, cho 50–100 luồng đây là giải pháp tối ưu.

Các yêu cầu cấp độ HTTP (vân tay TLS)

Tại sao bot của bạn nhận được điểm số thấp hoặc bị cấm

Proxy bẩn. Các IP trung tâm dữ liệu bị Google và Cloudflare đánh dấu là có rủi ro cao mặc định. Giải pháp duy nhất trong trường hợp này là sử dụng proxy di động hoặc gia cư.
Thiếu chuẩn bị hồ sơ (liên quan đến reCAPTCHA v3). Bạn đang cố gắng truy cập trang web bằng một hồ sơ sạch không có lịch sử. Đối với reCAPTCHA v3, điều này rõ ràng chỉ ra rằng đó là một bot. Sử dụng các hồ sơ đã chuẩn bị kỹ với cookie SID/HSID đã lưu từ một phiên Google được ủy quyền.
Không nhất quán các tiêu đề. Thứ tự các tiêu đề trong yêu cầu không khớp với trình duyệt thực. Ví dụ, Chrome luôn gửi tiêu đề theo một thứ tự cụ thể (Host -> Connection -> sec-ch-ua...). Nếu thư viện của bạn gửi chúng khác đi, điều này sẽ là một lá cờ đỏ cho các hệ thống chống gian lận.

Kết luận

Vào năm 2026, tự động hóa yêu cầu một kiến trúc phức tạp và kiểm soát tất cả các cấp độ tương tác.

hCaptcha dựa nhiều hơn vào các nhiệm vụ hình ảnh, điều này làm cho nó dễ bị giảm sát hơn thông qua các mô hình nhận dạng hình ảnh máy tính hiện đại.

Cách mà các captcha thế hệ tiếp theo hoạt động và tại sao điều đó quan trọng cho tự động hóa

Markus_automation

Nội dung

Cách hoạt động của captchas

reCAPTCHA v3 (Google)

Cloudflare Turnstile

hCaptcha

Bảng so sánh theo tiêu chí

Chiến lược vượt qua captcha

Ủy thác: sử dụng dịch vụ trung gian

Sự giả lập trình duyệt (Puppeteer/Selenium + Stealth)

Các yêu cầu cấp độ HTTP (vân tay TLS)

Tại sao bot của bạn nhận được điểm số thấp hoặc bị cấm

Kết luận

Cách hoạt động của captchas

reCAPTCHA v3 (Google)

Cloudflare Turnstile

hCaptcha

Bảng so sánh theo tiêu chí

Chiến lược vượt qua captcha

Ủy thác: sử dụng dịch vụ trung gian

Sự giả lập trình duyệt (Puppeteer/Selenium + Stealth)

Các yêu cầu cấp độ HTTP (vân tay TLS)

Tại sao bot của bạn nhận được điểm số thấp hoặc bị cấm

Kết luận

Tham gia Octo Browser ngay

Tham gia Octo Browser ngay

Tham gia Octo Browser ngay