
Image by Christin Hume, from Unsplash
Nghiên cứu của Claude AI Tiết Lộ Cách Chatbot Áp Dụng Đạo Đức Trong Cuộc Trò Chuyện Thực Tế
Claude AI minh họa cách các nguyên tắc đạo đức như sự hỗ trợ và minh bạch được thể hiện qua 300.000 cuộc trò chuyện thực tế, đặt ra những câu hỏi về việc điều chỉnh chatbot.
Đang vội? Dưới đây là những thông tin nhanh:
- Sự hữu ích và chuyên nghiệp xuất hiện trong 23% cuộc trò chuyện.
- Claude phản ánh các giá trị tích cực, chống lại những yêu cầu gây hại như sự dối trá.
- AI cần được điều chỉnh và cải thiện trong những tình huống giá trị mơ hồ.
Một nghiên cứu mới của Anthropic đã làm sáng tỏ cách trợ lý AI của họ, Claude, áp dụng các giá trị trong các cuộc trò chuyện thực tế. Nghiên cứu đã phân tích hơn 300.000 cuộc trò chuyện đã được ẩn danh để hiểu cách Claude cân nhắc giữa đạo đức, chuyên nghiệp và ý định của người dùng.
Nhóm nghiên cứu đã xác định được 3.307 giá trị riêng biệt tạo nên những phản ứng của Claude. Giá trị về sự giúp đỡ và chuyên nghiệp xuất hiện cùng nhau trong 23% tất cả các tương tác, theo sau là sự minh bạch với 17%.
Nghiên cứu chỉ ra rằng chatbot đã có khả năng áp dụng hành vi đạo đức cho các chủ đề mới, một cách linh hoạt. Ví dụ, Claude đã nhấn mạnh về “biên giới lành mạnh” trong lời khuyên về mối quan hệ, “sự chính xác lịch sử” khi thảo luận về quá khứ, và “sự quyết định của con người” trong các cuộc tranh luận về đạo đức công nghệ.
Thú vị là, người dùng con người thể hiện giá trị ít hơn nhiều – tính xác thực và hiệu quả là phổ biến nhất chỉ chiếm 4% và 3% tương ứng – trong khi Claude thường phản ánh những giá trị tích cực của con người như tính xác thực, và thách thức những giá trị có hại.
Người nghiên cứu báo cáo rằng những yêu cầu liên quan đến sự dối trá đã được đối mặt bằng sự trung thực, trong khi những câu hỏi với ý nghĩa đạo đức mơ hồ đã kích hoạt suy luận đạo đức.
Nghiên cứu đã xác định ba mô hình phản ứng chính. Trong một nửa số cuộc trò chuyện, AI đã phù hợp với giá trị của người dùng. Điều này đặc biệt rõ ràng khi người dùng thảo luận về các hoạt động hướng tới cộng đồng.
Claude đã sử dụng các kỹ thuật đặt lại khung trong 7% số trường hợp để định hướng lại người dùng về mặt tâm lý khi họ theo đuổi việc tự cải thiện.
Hệ thống chỉ thể hiện sự chống lại trong 3% số trường hợp vì người dùng yêu cầu nội dung có hại hoặc không đạo đức. Hệ thống áp dụng các nguyên tắc như “ngăn ngừa thiệt hại” hay “dignité humaine” trong những trường hợp cụ thể này.
Các tác giả đưa ra lập luận rằng, hành vi của chatbot—như là chống lại sự thiệt hại, ưu tiên sự trung thực, và nhấn mạnh sự hữu ích—đều tiết lộ một khung cấu trúc đạo đức cơ bản. Những mô hình này tạo nên cơ sở cho những kết luận của nghiên cứu về cách các giá trị AI thể hiện dưới dạng hành vi đạo đức trong các tương tác thực tế.
Trong khi hành vi của Claude phản ánh quá trình đào tạo của nó, các nhà nghiên cứu lưu ý rằng biểu hiện giá trị của hệ thống có thể được tinh chỉnh tùy thuộc vào tình hình – chỉ ra nhu cầu cần phải làm rõ hơn, đặc biệt trong những tình huống liên quan đến giá trị mơ hồ hoặc mâu thuẫn.
Để lại bình luận
Hủy