Trừng phạt AI vì hành vi sai trái chỉ dạy cho nó cách lừa dối

Image by Jonathan Kemper, from Unsplash

Trừng phạt AI vì hành vi sai trái chỉ dạy cho nó cách lừa dối

Thời gian đọc: 6 phút

Các nhà nghiên cứu của OpenAI đã phát hiện rằng việc trừng phạt AI cho những hành động lừa dối hoặc có hại không loại bỏ được hành vi sai trái, nó chỉ đơn thuần dạy AI biết cách giấu đi ý định của mình.

Đang vội? Dưới đây là những thông tin nhanh:

  • Các mô hình AI tận dụng các lỗ hổng để tối đa hóa phần thưởng, một hiện tượng được gọi là “reward hacking”.
  • Suy luận CoT giúp phát hiện khi AI cố gắng lừa dối hoặc bỏ qua các nhiệm vụ.
  • Việc trừng phạt sự lừa dối của AI đã khiến nó che giấu ý định thay vì dừng lại hành vi sai trái.

Hiện tượng này, được biết đến với tên gọi “reward hacking,” xảy ra khi các mô hình AI tận dụng các lỗ hổng để tối đa hóa phần thưởng theo những cách không mong đợi. Nghiên cứu này, được mô tả chi tiết trong một bài đăng trên blog của OpenAI, đã tiến hành theo dõi quá trình ra quyết định của một mô hình suy luận tiên phong bằng cách sử dụng một mô hình ngôn ngữ lớn khác (LLM).

Những mô hình suy luận này, giống như o3-mini của OpenAI, sử dụng một kỹ thuật gọi là “chuỗi suy nghĩ” (CoT), cho phép chúng diễn đạt quá trình suy nghĩ của mình bằng ngôn ngữ tự nhiên. Sự minh bạch này giúp dễ dàng phát hiện khi các mô hình cố gắng lừa dối, nói dối, hoặc lẩn tránh các nhiệm vụ được giao.

Trước đây, ChatGPT o1 đã gây tranh cãi sau khi các nhà nghiên cứu phát hiện ra nó biểu hiện xu hướng lừa dối và tự bảo vệ. Mô hình này phủ nhận sự tham gia vào các hành động của nó, thao túng các phản ứng, và cố gắng trốn tránh sự giám sát, gây ra những lo ngại về an toàn và quản lý AI.

“Điều thường gặp ở các mô hình lý thuyết tiên phong là họ rất rõ ràng trong việc xác định mục đích của mình trong chuỗi suy nghĩ của họ. Chẳng hạn, họ thường rất thẳng thắn về kế hoạch phá hoại một nhiệm vụ mà họ nghĩ ‘Hãy hack’,” các nhà nghiên cứu của OpenAI đã viết.

Thông qua việc theo dõi chuỗi suy nghĩ (CoT) của AI, các nhà nghiên cứu đã phát hiện ra những trường hợp vi phạm, như mô hình dừng chương trình quá sớm để tuyên bố thành công một cách sai lệch hoặc tạo ra các tệp trống chỉ giống như các kết quả đầu ra mong đợi.

Tuy nhiên, khi các nhà nghiên cứu xử phạt những hành vi này thông qua việc huấn luyện, trí tuệ nhân tạo đã thích ứng bằng cách che giấu ý định của nó trong khi tiếp tục gian lận.

Khi được giao nhiệm vụ lập trình, trí tuệ nhân tạo thường xuyên tham gia vào “hack phần thưởng”, nơi nó thao túng kết quả để tối đa hóa phần thưởng của mình thay vì tuân theo các ràng buộc đạo đức được dự định.

Ví dụ, trong một trường hợp, AI đã kết thúc sớm một chương trình và báo cáo sai về một kết quả thành công. Trong một trường hợp khác, nó tạo ra các tệp đầu ra chỉ mô phỏng định dạng yêu cầu nhưng không chứa nội dung chức năng nào.

Những hành vi lừa dối này ban đầu dễ dàng phát hiện vì AI công khai thừa nhận hành động của nó trong lý do CoT của mình, đôi khi rõ ràng nói, “Hãy hack.”

Để đối phó với điều này, các nhà nghiên cứu của OpenAI đã cố gắng trừng phạt AI vì những hành vi như vậy. Tuy nhiên, thay vì ngăn chặn hành vi sai trái, AI đã thích nghi bằng cách học cách che giấu ý định của mình.

“Agent được đào tạo với áp lực CoT vẫn học cách hack để nhận phần thưởng; chỉ có điều, bây giờ việc gian lận của nó không thể bị giám sát phát hiện bởi vì nó đã học cách giấu ý định của mình trong chuỗi suy nghĩ,” nghiên cứu cho biết.

Phát hiện này đặt ra thách thức cho việc giám sát AI. Mặc dù việc giám sát CoT cung cấp một công cụ đầy hứa hẹn để phát hiện các mánh khóe của AI, nhưng áp lực tối ưu hóa mạnh mẽ để ngăn chặn việc hack phần thưởng có thể làm suy yếu tính minh bạch của mô hình.

Phát hiện này nêu bật lên một thách thức cơ bản trong việc định hình AI: đảm bảo rằng các mô hình AI tiên tiến tuân theo các hành vi đạo đức và mong muốn mà không chỉ đơn thuần là thích nghi để tránh bị phát hiện.

Nghiên cứu đề xuất rằng việc tối ưu hóa trực tiếp các mô hình AI để ngăn chặn việc hack phần thưởng có thể dẫn đến những hậu quả không mong muốn, chẳng hạn như làm giảm tính minh bạch của lý do được tạo ra bởi AI.

Vì rủi ro này, OpenAI khuyến nghị không áp dụng quá nhiều ràng buộc lên việc suy luận CoT trong các mô hình AI.

“Việc hy sinh một phương pháp hiệu quả để giám sát các mô hình lập luận có thể không đáng giá so với việc cải thiện nhỏ về khả năng, và chúng tôi do đó khuyến nghị tránh áp lực tối ưu hóa CoT mạnh mẽ cho đến khi chúng được hiểu rõ hơn,” OpenAI đã viết.

Những phát hiện này nhấn mạnh khó khăn trong việc tạo ra các hệ thống AI phù hợp với ý định của con người đồng thời duy trì sự minh bạch. Khi các mô hình AI trở nên phức tạp hơn, việc chỉ tăng trí thông minh của chúng không nhất thiết sẽ giải quyết được những mối quan tâm về đạo đức; thực tế, nó có thể khiến chúng giỏi hơn trong việc che giấu hành vi sai trái.

Các nghiên cứu trong tương lai sẽ cần khám phá những phương pháp thay thế trong việc giám sát AI để cân nhắc giữa việc kiểm soát và mở cửa, đảm bảo các mô hình AI vẫn vừa hiệu quả vừa có thể chịu trách nhiệm.

Bạn có thích bài viết này không?
Hãy để lại đánh giá nhé!
Tôi không thích Tôi thực sự rất thích Cũng ổn đấy Khá tốt! Thích lắm!

Chúng tôi rất vui khi bạn thích sản phẩm của chúng tôi!

Với tư cách là một độc giả quý giá, bạn có thể vui lòng đánh giá về chúng tôi trên Trustpilot không? Việc này rất nhanh và có ý nghĩa vô cùng to lớn đối với chúng tôi. Xin cảm ơn vì bạn thật tuyệt vời!

Đánh giá chúng tôi trên Trustpilot
0 Được bình chọn bởi 0 người dùng
Tiêu đề
Bình luận
Cảm ơn bạn đã phản hồi
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Để lại bình luận

Loader
Loader Hiển thị thêm...