Image by Oberon Copeland, from Unsplash

Các Bot AI Đang Làm Quá Tải Máy Chủ Của Wikipedia

Thời gian đọc: 3 phút

Cập nhật mới nhất: Apr 7, 2025

Được viết bởi Kiara Fabbri Nhà báo đa phương tiện
Dịch bởi Nhóm Bản địa hóa và Dịch thuật Dịch vụ Bản địa hóa và Dịch thuật

Quỹ Wikimedia đã báo động về tình trạng áp lực ngày càng tăng lên máy chủ của mình do các bot tự động lấy dữ liệu để huấn luyện cho các mô hình trí tuệ nhân tạo.

Bạn đang vội? Dưới đây là những thông tin nhanh:

Các bot AI đang lấy dữ liệu từ Wikimedia ở mức độ kỷ lục.
Bots đã gây ra sự tăng 50% về việc sử dụng băng thông đa phương tiện.
65% lưu lượng truy cập tốn kém hiện nay đến từ các trình thu thập dữ liệu.

Quỹ đã báo cáo trong một bài viết gần đây rằng lưu lượng truy cập do máy móc tạo ra tiếp tục tăng với tốc độ chưa từng có trong khi con người chỉ chiếm một phần nhỏ trong lưu lượng truy cập này.

“Từ tháng Giêng 2024, chúng tôi đã thấy băng thông được sử dụng để tải xuống nội dung đa phương tiện tăng 50%,” bài đăng nói.

“Sự tăng này không đến từ người đọc thực sự, mà chủ yếu từ các chương trình tự động lấy dữ liệu từ danh mục hình ảnh Wikimedia Commons có cấp phép mở để cung cấp hình ảnh cho các mô hình AI,” bài đăng thêm.

Các bot được biết đến với tên gọi là crawlers đánh cắp một lượng lớn dữ liệu từ các dự án của Wikimedia, bao gồm Wikipedia và Wikimedia Commons mà không có sự ghi nhận đúng mực hoặc công cụ truy cập chính thức. Quá trình này khiến cho việc khám phá Wikimedia trở nên khó khăn đối với những người dùng mới và gây áp lực quá mức lên hệ thống kỹ thuật của họ.

Ví dụ, bài đăng ghi nhận rằng trang Wikipedia của Jimmy Carter đã nhận được hơn 2,8 triệu lượt xem trong ngày ông qua đời vào tháng 12 năm 2024. Video tranh luận năm 1980 đã gây ra sự tăng lượng truy cập trang web đáng kể. Một video về cuộc tranh luận của ông vào năm 1980 cũng đã làm tăng lượng truy cập. Wikimedia đã xử lý được tình hình – nhưng chỉ vừa đủ. Vấn đề thực sự theo các kỹ sư là dòng liên tục của lưu lượng bot.

“65% lượng truy cập đắt giá nhất của chúng tôi đến từ các bot,” tổ chức Foundation đã viết. Các bot “đọc hàng loạt” nội dung, đặc biệt là những trang ít phổ biến, điều này kích hoạt các yêu cầu tốn kém đến các trung tâm dữ liệu cốt lõi của Wikimedia.

Mặc dù nội dung của Wikimedia miễn phí để sử dụng, nhưng máy chủ của họ thì không. “Nội dung của chúng tôi miễn phí, nhưng cơ sở hạ tầng của chúng tôi không,” tổ chức Foundation nói. Đội ngũ tiếp tục phát triển các phương pháp để khuyến khích “sử dụng cơ sở hạ tầng một cách có trách nhiệm” bằng cách thúc đẩy các nhà phát triển sử dụng API thay vì lấy toàn bộ dữ liệu trên trang web.

Vấn đề ảnh hưởng đến Wikimedia cũng như nhiều trang web và nhà xuất bản khác. Nhưng đối với nền tảng kiến thức mở lớn nhất thế giới, nó đang đe dọa đến sự ổn định của các dịch vụ mà hàng triệu người dựa vào.

Các Bot AI Đang Làm Quá Tải Máy Chủ Của Wikipedia

Chúng tôi rất vui khi bạn thích sản phẩm của chúng tôi!

Để lại bình luận