
Image by Marco Verch, from Ccnull
Mê cung AI: Công cụ mới của Cloudflare đánh lừa các máy tìm kiếm AI bằng các trang web giả
Cloudflare đã công bố “AI Labyrinth,” một công cụ được thiết kế để chống lại những công cụ web scraping được điều khiển bởi AI, những công cụ này rút trích dữ liệu từ các trang web mà không có sự cho phép.
Đang bận rộn? Dưới đây là những thông tin quan trọng:
- Công cụ tạo ra nội dung do AI tạo ra rất thực tế nhưng vô ích để lãng phí thời gian của những người sử dụng web scraper.
- AI Labyrinth nhắm vào các bot bỏ qua robots.txt, bao gồm cả những bot từ Anthropic và Perplexity AI.
- Nó hoạt động như một bẫy mật độ thế hệ mới, phát hiện và xác định dấu vân tay của các trình thu thập dữ liệu không được phép.
Thay vì chặn trực tiếp những con bot này, AI Labyrinth đưa chúng vào mê cung không tận của các trang web được tạo ra bởi AI, làm phí thời gian và công suất tính toán của chúng.
“Khi chúng tôi phát hiện ra việc bò lén không được phép, thay vì chặn yêu cầu, chúng tôi sẽ liên kết đến một loạt các trang được tạo bởi AI đủ thuyết phục để thu hút một bộ thu thập dữ liệu để duyệt qua chúng,” Cloudflare giải thích trong một bài đăng trên blog.
“Nhưng dù trông rất thật, nội dung này thực sự không phải là nội dung của trang web mà chúng tôi đang bảo vệ, vì vậy bộ thu thập dữ liệu sẽ lãng phí thời gian và tài nguyên,” Cloudflare thêm vào.
ArsTechnica ghi nhận rằng các công cụ lấy dữ liệu AI là một vấn đề bởi chúng thu thập lượng lớn dữ liệu từ các trang web, thường mà không có sự cho phép, để huấn luyện mô hình AI. Điều này tạo ra một số vấn đề: nó có thể vi phạm quyền sở hữu trí tuệ, vượt qua các biện pháp kiểm soát mà chủ sở hữu trang web sử dụng để điều chỉnh quyền truy cập.
Thêm vào đó, việc lấy dữ liệu có thể dẫn đến việc lạm dụng thông tin nhạy cảm hoặc độc quyền. Khối lượng lấy dữ liệu đã tăng mạnh, với Cloudflare báo cáo hơn 50 tỷ yêu cầu lấy dữ liệu mỗi ngày.
Việc trích xuất dữ liệu quy mô lớn này làm cạn kiệt nguồn lực của trang web, ảnh hưởng đến hiệu suất và quyền riêng tư của trang web trong khi đóng góp vào những mối quan ngại ngày càng tăng về việc khai thác dữ liệu trong phát triển AI.
Truyền thống, chủ sở hữu trang web dựa vào tệp robots.txt để chỉ cho bot biết họ có thể truy cập và không thể truy cập điều gì, nhiều công ty AI – bao gồm các đối tác lớn như Anthropic và Perplexity AI – đã bị cáo buộc không chú ý đến những chỉ thị này, như được báo cáo bởi The Verge.
Lối đi của AI Labyrinth thuộc Cloudflare mang đến một phương pháp quyết liệt hơn để đối phó với những con bot không mong muốn này. Công cụ này hoạt động như một “bẫy mật ngọt thế hệ tiếp theo”, thu hút bot sâu hơn vào một mạng lưới nội dung nhân tạo giả nhưng cuối cùng lại vô ích cho việc huấn luyện AI.
Khác với những bẫy mật ngọt truyền thống, mà bot đã học cách nhận diện, AI Labyrinth tạo ra thông tin trông rất thực nhưng lại không liên quan bằng cách sử dụng nền tảng AI Workers của Cloudflare.
“Không có con người thực sự nào sẽ đi sâu vào bốn mắt xích của mê cung do AI tạo ra,” Cloudflare lưu ý. “Bất kỳ khách truy cập nào làm như vậy rất có thể là một bot, vì vậy điều này mang lại cho chúng tôi một công cụ hoàn toàn mới để xác định và lấy dấu vân tay của các bot xấu.”
Nội dung do AI tạo ra được thiết kế để có tính chất khoa học nhưng không liên quan đến trang web thực sự đang được bảo vệ.
Điều này đảm bảo rằng công cụ không gây ra thông tin sai lệch trong khi vẫn làm rối máy tìm kiếm AI. Những trang web gây hiểu lầm không hề hiển thị với người truy cập và không ảnh hưởng đến thứ hạng trên công cụ tìm kiếm.
AI Labyrinth được cung cấp miễn phí, là tính năng tùy chọn cho tất cả người dùng Cloudflare. Quản trị viên trang web có thể kích hoạt nó thông qua bảng điều khiển Cloudflare của họ dưới cài đặt Quản lý Bot.
Công ty mô tả điều này chỉ là khởi đầu cho các biện pháp phản công do AI điều khiển, với kế hoạch trong tương lai làm cho các trang giả mạo càng trở nên khó phân biệt hơn.
Cuộc đua mèo vờn chuột giữa các trang web và các công cụ lấy dữ liệu do AI điều khiển tiếp tục diễn ra, với Cloudflare áp dụng một cách tiếp cận sáng tạo để bảo vệ nội dung trực tuyến. Tuy nhiên, vẫn còn những thắc mắc về tốc độ thích nghi của các công ty AI với những cạm bẫy này cũng như liệu chiến lược này có thể dẫn đến sự leo thang trong cuộc chiến về dữ liệu web hay không.
Để lại bình luận
Hủy