Cách thu thập dữ liệu từ Twitter (X.com) — hướng dẫn từng bước

Trên X.com, bạn có thể theo dõi xu hướng thị trường và hành vi của người tiêu dùng từ các bài đăng của người dùng. Nhưng API chính thức của nền tảng có những giới hạn, vì vậy các chuyên gia thu thập dữ liệu từ web thu thập thông tin từ nền tảng truyền thông xã hội bằng cách tự động hóa trình duyệt. Trong bài viết này, chúng tôi giải thích cách thu thập dữ liệu từ tweet, hồ sơ, kết quả tìm kiếm, phản hồi và dòng thời gian trên X.com bằng cách sử dụng thư viện Playwright và một trình duyệt không hiển thị.

Giữ kín danh tính, tận dụng tính năng nhiều tài khoản và đạt được mục tiêu của bạn với trình duyệt chống phát hiện chất lượng cao nhất trên thị trường.

Đăng kí

Tại sao quét dữ liệu từ Twitter (X.com)

Twitter là một nguồn dữ liệu về hành vi người dùng, ý kiến và xu hướng hiện tại. Bằng cách quét X.com bạn có thể:

Phân tích đối thủ cạnh tranh. Thu thập dữ liệu từ hồ sơ của đối thủ trên Twitter để giám sát chiến lược tiếp thị, thông báo sản phẩm và phản ứng của khán giả theo thời gian thực.
Khám phá xu hướng. Thu thập các hashtag phổ biến trên Twitter để nhanh chóng điều chỉnh nội dung hoặc sản phẩm của bạn theo xu hướng mới.
Nghiên cứu người tiêu dùng. Quét đánh giá, đề cập thương hiệu và phản hồi trên Twitter cho phép bạn hiểu các điểm đau và mong đợi của khách hàng, điều này giúp cải thiện sản phẩm và tăng doanh số.

Những khía cạnh pháp lý và đạo đức

X.com cấm quét dữ liệu của nó mà không có sự cho phép. Vi phạm các quy tắc này có thể dẫn đến các lệnh cấm tài khoản và IP. Tuy nhiên, luật án lệ — đặc biệt là ở Hoa Kỳ — thừa nhận rằng việc quét dữ liệu công khai có sẵn là hợp pháp. Ví dụ, vào năm 2022, Tòa án Phúc thẩm Liên bang Hoa Kỳ khu vực thứ chín xác nhận rằng quét thông tin công khai không vi phạm Luật Gian lận và Lạm dụng Máy tính (CFAA).

Để bảo vệ bản thân hơn nữa, tốt nhất là:

chỉ quét dữ liệu công khai có sẵn;
tránh quét hồ sơ riêng tư và tin nhắn trực tiếp trên Twitter;
tuân thủ tốc độ yêu cầu cho phép khi quét để không quá tải máy chủ của X.com.

Vượt qua các lệnh chặn của X.com

Các hệ thống bảo mật của X.com phân tích hành vi người dùng trên nhiều tham số. Do đó, để có sự bảo vệ tối đa chống lại các lệnh cấm vì quét web, hãy sử dụng mọi biện pháp có sẵn:

Thực hiện các khoảng dừng hợp lý giữa các yêu cầu khi quét. Điều quan trọng không chỉ để tránh quá tải máy chủ của X.com, mà còn để tạo ra các khoảng ngẫu nhiên giữa các yêu cầu để chúng giống như hoạt động của con người.
Sử dụng proxy chất lượng cao. Các hệ thống bảo mật có thể chặn một địa chỉ IP gửi quá nhiều yêu cầu. Để quét an toàn, hãy sử dụng proxy và giới hạn số lượng yêu cầu từ một địa chỉ duy nhất.
Sử dụng trình duyệt chống phát hiện. Twitter xác định người dùng không chỉ qua hành vi và địa chỉ IP, mà còn qua vân tay số, các tổ hợp duy nhất của hàng chục tham số thiết bị. Một vân tay bao gồm nhiều thiết lập: phiên bản hệ điều hành, địa lý, múi giờ và ngôn ngữ, font chữ và tiện ích mở rộng cài đặt, và nhiều hơn nữa. Do đó, khi quét, kết hợp proxy với trình duyệt chống phát hiện. Trong một trình duyệt như vậy, bạn có thể tạo hồ sơ ảo với các vân tay khác nhau, và từng hồ sơ sẽ nhìn vào X.com như một người dùng riêng biệt thay vì một bot quét duy nhất.

Quan trọng: sử dụng một hồ sơ ảo riêng biệt cho mỗi tài khoản X.com và kết nối các proxy khác nhau với các IP khác nhau cho từng tài khoản. Điều này ngăn cản hệ thống bảo mật của Twitter liên kết tài khoản của bạn bởi các thiết lập thiết bị giống hệt nhau hoặc IP và chặn bạn vì quét dữ liệu.

Chuẩn bị kỹ lưỡng hồ sơ của bạn. Để Twitter tin tưởng tài khoản của bạn, chúng cần cookie. Nếu bạn đang đăng ký một tài khoản mới từ đầu, hãy chuẩn bị hồ sơ ảo bằng Octo Browser’s Cookie Robot. Nếu bạn quét bằng các tài khoản X.com đã có sẵn, hãy xuất cookie từ trình duyệt trước của bạn và nhập chúng vào Octo.

Cách quét dữ liệu từ tweets

Để quét bài viết từ X.com, bạn cần tải trang web qua một trình duyệt ở chế độ đầu không (ví dụ, Octo) và chặn các yêu cầu nền. Đây là cách quét tweets sử dụng thư viện mã nguồn mở Playwright:

from playwright.sync_api import sync_playwright
def scrape_tweet(url: str) -> dict:
    """
    Scrape a single tweet page for Tweet thread e.g.:
    https://twitter.com/Scrapfly_dev/status/1667013143904567296
    Return parent tweet, reply tweets and recommended tweets
    """
    _xhr_calls = []
    def intercept_response(response):
        """capture all background requests and save them"""
        # we can extract details from background requests
        if response.request.resource_type == "xhr":
            _xhr_calls.append(response)
        return response
    with sync_playwright() as pw:
        browser = pw.chromium.launch(headless=False)
        context = browser.new_context(viewport={"width": 1920, "height": 1080})
        page = context.new_page()
        # enable background request intercepting:
        page.on("response", intercept_response)
        # go to url and wait for the page to load
        page.goto(url)
        page.wait_for_selector("[data-testid='tweet']")
        # find all tweet background requests:
        tweet_calls = [f for f in _xhr_calls if "TweetResultByRestId" in f.url]
        for xhr in tweet_calls:
            data = xhr.json()
            return data['data']['tweetResult']['result']
if __name__ == "__main__":    print(scrape_tweet("https://twitter.com/Scrapfly_dev/status/1664267318053179398"))

from playwright.sync_api import sync_playwright
def scrape_tweet(url: str) -> dict:
    """
    Scrape a single tweet page for Tweet thread e.g.:
    https://twitter.com/Scrapfly_dev/status/1667013143904567296
    Return parent tweet, reply tweets and recommended tweets
    """
    _xhr_calls = []
    def intercept_response(response):
        """capture all background requests and save them"""
        # we can extract details from background requests
        if response.request.resource_type == "xhr":
            _xhr_calls.append(response)
        return response
    with sync_playwright() as pw:
        browser = pw.chromium.launch(headless=False)
        context = browser.new_context(viewport={"width": 1920, "height": 1080})
        page = context.new_page()
        # enable background request intercepting:
        page.on("response", intercept_response)
        # go to url and wait for the page to load
        page.goto(url)
        page.wait_for_selector("[data-testid='tweet']")
        # find all tweet background requests:
        tweet_calls = [f for f in _xhr_calls if "TweetResultByRestId" in f.url]
        for xhr in tweet_calls:
            data = xhr.json()
            return data['data']['tweetResult']['result']
if __name__ == "__main__":    print(scrape_tweet("https://twitter.com/Scrapfly_dev/status/1664267318053179398"))

Kịch bản tải một tweet qua trình duyệt đầu không và chặn các yêu cầu nền. Sau đó, nó lọc những yêu cầu chứa dữ liệu tweet.

Ghi chú: Để quét, bạn phải chờ cho đến khi tweets xuất hiện trên trang HTML — điều này chỉ ra rằng các yêu cầu nền đã hoàn thành.

Cách quét hồ sơ

Bạn có thể quét hồ sơ người dùng X.com tương tự như tweets: bằng cách chặn các yêu cầu nền trong trình duyệt đầu không. Sử dụng thuật toán sau để lấy metadata hồ sơ:

Đăng nhập vào một tài khoản Twitter.
Mở trang của người dùng trên X.com.
Trích xuất tên, mô tả, số lượng người theo dõi và ngày tạo tài khoản.
Thêm các khoảng dừng để Twitter không gắn cờ quét của bạn như hoạt động đáng ngờ.

Cách quét tìm kiếm, trả lời và dòng thời gian

Sử dụng thư viện Playwright, bạn có thể quét ngay cả những phần động của X.com:

Tìm kiếm. Kịch bản mô phỏng việc gõ một truy vấn vào ô tìm kiếm của Twitter và nhấn Enter. Sau đó, nó lướt và trích xuất dữ liệu để quét nhiều bài viết liên quan nhất có thể cho từ khóa.
Trả lời. Để lấy các phản hồi cho một bài viết cụ thể, Playwright mở trang của bài viết đó. Kịch bản tập trung vào khu vực bình luận, lướt để tải hết chuỗi và quét văn bản phản hồi và tên tác giả.
Dòng thời gian. Kịch bản mở trang chính của hồ sơ và lướt liên tục để quét tất cả các bài viết gần đây từ người dùng.

Lưu trữ và xuất dữ liệu

Sau khi quét, cấu trúc lại dữ liệu thu thập được. Playwright trích xuất dữ liệu từ HTML, vì vậy đầu ra sẽ là danh sách các bản ghi có cấu trúc (ví dụ, từ điển Python). Bạn có thể xuất chúng sang định dạng bảng tính như CSV hoặc Excel để có thể tải lên các công cụ phân tích sau này.

Phân tích dữ liệu đã thu thập

Khi dữ liệu đã được quét, bạn cần phân tích nó. Tùy thuộc vào mục tiêu của bạn, bạn có thể sử dụng các phương pháp khác nhau:

Phân tích tâm lý. Đánh giá tông giọng cảm xúc của các bài viết và phản hồi để hiểu người dùng cảm nhận như thế nào về sản phẩm của bạn hoặc đối thủ — tích cực, tiêu cực, hoặc trung lập.
Phân nhóm. Phân nhóm các bài viết theo chủ đề. Đối với một công ty sản phẩm, các nhóm có thể trông giống như: “khiếu nại giao hàng,” “đánh giá sản phẩm tích cực,” “yêu cầu tính năng.”
Xác định người ảnh hưởng. Tìm kiếm người dùng có số lượng người theo dõi lớn và mức độ tương tác cao, những người thảo luận về lĩnh vực của bạn. Bạn có thể tiếp cận họ để hợp tác và có thể khiến họ trở thành người ủng hộ thương hiệu.

Câu hỏi thường gặp

Quét dữ liệu từ Twitter (X.com) có hợp pháp không?

Quét dữ liệu công khai không tự nó là bất hợp pháp. Tuy nhiên, X.com cấm việc quét dữ liệu. Về mặt kỹ thuật, bạn có thể quét dữ liệu, nhưng Twitter có quyền chặn tài khoản hoặc địa chỉ IP của bạn vì vi phạm các quy tắc của nền tảng.

Bạn có thể quét dữ liệu từ Twitter bằng Python không?

Vâng, Python là một ngôn ngữ phổ biến cho tự động hóa quét web. Bạn có thể quét với các thư viện như Playwright, giúp vượt qua những hạn chế của API chính thức của Twitter.

Làm thế nào để quét dữ liệu từ Twitter mà không bị chặn?

Để giảm thiểu rủi ro bị cấm vì quét web, bạn nên:

Sử dụng proxy.
Sử dụng trình duyệt chống phát hiện (ví dụ Octo Browser) để tạo hồ sơ với các vân tay kỹ thuật số khác nhau để các hệ thống bảo mật của X.com không thể theo dõi hoạt động của bạn đến một người dùng duy nhất.
Thêm các khoảng dừng ngẫu nhiên như con người giữa các yêu cầu.
Lưu cookie trong trình duyệt chống phát hiện.

Giữ kín danh tính, tận dụng tính năng nhiều tài khoản và đạt được mục tiêu của bạn với trình duyệt chống phát hiện chất lượng cao nhất trên thị trường.

Đăng kí

Tại sao quét dữ liệu từ Twitter (X.com)

Twitter là một nguồn dữ liệu về hành vi người dùng, ý kiến và xu hướng hiện tại. Bằng cách quét X.com bạn có thể:

Phân tích đối thủ cạnh tranh. Thu thập dữ liệu từ hồ sơ của đối thủ trên Twitter để giám sát chiến lược tiếp thị, thông báo sản phẩm và phản ứng của khán giả theo thời gian thực.
Khám phá xu hướng. Thu thập các hashtag phổ biến trên Twitter để nhanh chóng điều chỉnh nội dung hoặc sản phẩm của bạn theo xu hướng mới.
Nghiên cứu người tiêu dùng. Quét đánh giá, đề cập thương hiệu và phản hồi trên Twitter cho phép bạn hiểu các điểm đau và mong đợi của khách hàng, điều này giúp cải thiện sản phẩm và tăng doanh số.

Những khía cạnh pháp lý và đạo đức

X.com cấm quét dữ liệu của nó mà không có sự cho phép. Vi phạm các quy tắc này có thể dẫn đến các lệnh cấm tài khoản và IP. Tuy nhiên, luật án lệ — đặc biệt là ở Hoa Kỳ — thừa nhận rằng việc quét dữ liệu công khai có sẵn là hợp pháp. Ví dụ, vào năm 2022, Tòa án Phúc thẩm Liên bang Hoa Kỳ khu vực thứ chín xác nhận rằng quét thông tin công khai không vi phạm Luật Gian lận và Lạm dụng Máy tính (CFAA).

Để bảo vệ bản thân hơn nữa, tốt nhất là:

chỉ quét dữ liệu công khai có sẵn;
tránh quét hồ sơ riêng tư và tin nhắn trực tiếp trên Twitter;
tuân thủ tốc độ yêu cầu cho phép khi quét để không quá tải máy chủ của X.com.

Vượt qua các lệnh chặn của X.com

Các hệ thống bảo mật của X.com phân tích hành vi người dùng trên nhiều tham số. Do đó, để có sự bảo vệ tối đa chống lại các lệnh cấm vì quét web, hãy sử dụng mọi biện pháp có sẵn:

Thực hiện các khoảng dừng hợp lý giữa các yêu cầu khi quét. Điều quan trọng không chỉ để tránh quá tải máy chủ của X.com, mà còn để tạo ra các khoảng ngẫu nhiên giữa các yêu cầu để chúng giống như hoạt động của con người.
Sử dụng proxy chất lượng cao. Các hệ thống bảo mật có thể chặn một địa chỉ IP gửi quá nhiều yêu cầu. Để quét an toàn, hãy sử dụng proxy và giới hạn số lượng yêu cầu từ một địa chỉ duy nhất.
Sử dụng trình duyệt chống phát hiện. Twitter xác định người dùng không chỉ qua hành vi và địa chỉ IP, mà còn qua vân tay số, các tổ hợp duy nhất của hàng chục tham số thiết bị. Một vân tay bao gồm nhiều thiết lập: phiên bản hệ điều hành, địa lý, múi giờ và ngôn ngữ, font chữ và tiện ích mở rộng cài đặt, và nhiều hơn nữa. Do đó, khi quét, kết hợp proxy với trình duyệt chống phát hiện. Trong một trình duyệt như vậy, bạn có thể tạo hồ sơ ảo với các vân tay khác nhau, và từng hồ sơ sẽ nhìn vào X.com như một người dùng riêng biệt thay vì một bot quét duy nhất.

Quan trọng: sử dụng một hồ sơ ảo riêng biệt cho mỗi tài khoản X.com và kết nối các proxy khác nhau với các IP khác nhau cho từng tài khoản. Điều này ngăn cản hệ thống bảo mật của Twitter liên kết tài khoản của bạn bởi các thiết lập thiết bị giống hệt nhau hoặc IP và chặn bạn vì quét dữ liệu.

Chuẩn bị kỹ lưỡng hồ sơ của bạn. Để Twitter tin tưởng tài khoản của bạn, chúng cần cookie. Nếu bạn đang đăng ký một tài khoản mới từ đầu, hãy chuẩn bị hồ sơ ảo bằng Octo Browser’s Cookie Robot. Nếu bạn quét bằng các tài khoản X.com đã có sẵn, hãy xuất cookie từ trình duyệt trước của bạn và nhập chúng vào Octo.

Cách quét dữ liệu từ tweets

Để quét bài viết từ X.com, bạn cần tải trang web qua một trình duyệt ở chế độ đầu không (ví dụ, Octo) và chặn các yêu cầu nền. Đây là cách quét tweets sử dụng thư viện mã nguồn mở Playwright:

from playwright.sync_api import sync_playwright
def scrape_tweet(url: str) -> dict:
    """
    Scrape a single tweet page for Tweet thread e.g.:
    https://twitter.com/Scrapfly_dev/status/1667013143904567296
    Return parent tweet, reply tweets and recommended tweets
    """
    _xhr_calls = []
    def intercept_response(response):
        """capture all background requests and save them"""
        # we can extract details from background requests
        if response.request.resource_type == "xhr":
            _xhr_calls.append(response)
        return response
    with sync_playwright() as pw:
        browser = pw.chromium.launch(headless=False)
        context = browser.new_context(viewport={"width": 1920, "height": 1080})
        page = context.new_page()
        # enable background request intercepting:
        page.on("response", intercept_response)
        # go to url and wait for the page to load
        page.goto(url)
        page.wait_for_selector("[data-testid='tweet']")
        # find all tweet background requests:
        tweet_calls = [f for f in _xhr_calls if "TweetResultByRestId" in f.url]
        for xhr in tweet_calls:
            data = xhr.json()
            return data['data']['tweetResult']['result']
if __name__ == "__main__":    print(scrape_tweet("https://twitter.com/Scrapfly_dev/status/1664267318053179398"))

Kịch bản tải một tweet qua trình duyệt đầu không và chặn các yêu cầu nền. Sau đó, nó lọc những yêu cầu chứa dữ liệu tweet.

Ghi chú: Để quét, bạn phải chờ cho đến khi tweets xuất hiện trên trang HTML — điều này chỉ ra rằng các yêu cầu nền đã hoàn thành.

Cách quét hồ sơ

Bạn có thể quét hồ sơ người dùng X.com tương tự như tweets: bằng cách chặn các yêu cầu nền trong trình duyệt đầu không. Sử dụng thuật toán sau để lấy metadata hồ sơ:

Đăng nhập vào một tài khoản Twitter.
Mở trang của người dùng trên X.com.
Trích xuất tên, mô tả, số lượng người theo dõi và ngày tạo tài khoản.
Thêm các khoảng dừng để Twitter không gắn cờ quét của bạn như hoạt động đáng ngờ.

Cách quét tìm kiếm, trả lời và dòng thời gian

Sử dụng thư viện Playwright, bạn có thể quét ngay cả những phần động của X.com:

Tìm kiếm. Kịch bản mô phỏng việc gõ một truy vấn vào ô tìm kiếm của Twitter và nhấn Enter. Sau đó, nó lướt và trích xuất dữ liệu để quét nhiều bài viết liên quan nhất có thể cho từ khóa.
Trả lời. Để lấy các phản hồi cho một bài viết cụ thể, Playwright mở trang của bài viết đó. Kịch bản tập trung vào khu vực bình luận, lướt để tải hết chuỗi và quét văn bản phản hồi và tên tác giả.
Dòng thời gian. Kịch bản mở trang chính của hồ sơ và lướt liên tục để quét tất cả các bài viết gần đây từ người dùng.

Lưu trữ và xuất dữ liệu

Sau khi quét, cấu trúc lại dữ liệu thu thập được. Playwright trích xuất dữ liệu từ HTML, vì vậy đầu ra sẽ là danh sách các bản ghi có cấu trúc (ví dụ, từ điển Python). Bạn có thể xuất chúng sang định dạng bảng tính như CSV hoặc Excel để có thể tải lên các công cụ phân tích sau này.

Phân tích dữ liệu đã thu thập

Khi dữ liệu đã được quét, bạn cần phân tích nó. Tùy thuộc vào mục tiêu của bạn, bạn có thể sử dụng các phương pháp khác nhau:

Phân tích tâm lý. Đánh giá tông giọng cảm xúc của các bài viết và phản hồi để hiểu người dùng cảm nhận như thế nào về sản phẩm của bạn hoặc đối thủ — tích cực, tiêu cực, hoặc trung lập.
Phân nhóm. Phân nhóm các bài viết theo chủ đề. Đối với một công ty sản phẩm, các nhóm có thể trông giống như: “khiếu nại giao hàng,” “đánh giá sản phẩm tích cực,” “yêu cầu tính năng.”
Xác định người ảnh hưởng. Tìm kiếm người dùng có số lượng người theo dõi lớn và mức độ tương tác cao, những người thảo luận về lĩnh vực của bạn. Bạn có thể tiếp cận họ để hợp tác và có thể khiến họ trở thành người ủng hộ thương hiệu.

Câu hỏi thường gặp

Quét dữ liệu từ Twitter (X.com) có hợp pháp không?

Quét dữ liệu công khai không tự nó là bất hợp pháp. Tuy nhiên, X.com cấm việc quét dữ liệu. Về mặt kỹ thuật, bạn có thể quét dữ liệu, nhưng Twitter có quyền chặn tài khoản hoặc địa chỉ IP của bạn vì vi phạm các quy tắc của nền tảng.

Bạn có thể quét dữ liệu từ Twitter bằng Python không?

Vâng, Python là một ngôn ngữ phổ biến cho tự động hóa quét web. Bạn có thể quét với các thư viện như Playwright, giúp vượt qua những hạn chế của API chính thức của Twitter.

Làm thế nào để quét dữ liệu từ Twitter mà không bị chặn?

Để giảm thiểu rủi ro bị cấm vì quét web, bạn nên:

Sử dụng proxy.
Sử dụng trình duyệt chống phát hiện (ví dụ Octo Browser) để tạo hồ sơ với các vân tay kỹ thuật số khác nhau để các hệ thống bảo mật của X.com không thể theo dõi hoạt động của bạn đến một người dùng duy nhất.
Thêm các khoảng dừng ngẫu nhiên như con người giữa các yêu cầu.
Lưu cookie trong trình duyệt chống phát hiện.

Cách thu thập dữ liệu từ Twitter (X.com) — hướng dẫn từng bước

Palina Zabela

Nội dung

Tại sao quét dữ liệu từ Twitter (X.com)

Những khía cạnh pháp lý và đạo đức

Vượt qua các lệnh chặn của X.com

Cách quét dữ liệu từ tweets

Cách quét hồ sơ

Cách quét tìm kiếm, trả lời và dòng thời gian

Lưu trữ và xuất dữ liệu

Phân tích dữ liệu đã thu thập

Câu hỏi thường gặp

Quét dữ liệu từ Twitter (X.com) có hợp pháp không?

Bạn có thể quét dữ liệu từ Twitter bằng Python không?

Làm thế nào để quét dữ liệu từ Twitter mà không bị chặn?

Tại sao quét dữ liệu từ Twitter (X.com)

Những khía cạnh pháp lý và đạo đức

Vượt qua các lệnh chặn của X.com

Cách quét dữ liệu từ tweets

Cách quét hồ sơ

Cách quét tìm kiếm, trả lời và dòng thời gian

Lưu trữ và xuất dữ liệu

Phân tích dữ liệu đã thu thập

Câu hỏi thường gặp

Quét dữ liệu từ Twitter (X.com) có hợp pháp không?

Bạn có thể quét dữ liệu từ Twitter bằng Python không?

Làm thế nào để quét dữ liệu từ Twitter mà không bị chặn?

Tham gia Octo Browser ngay

Tham gia Octo Browser ngay

Tham gia Octo Browser ngay