Image by Matheus Bertelli, from Pexels

AI của DeepSeek Học Cách Tự Suy Nghĩ

Thời gian đọc: 3 phút

Xuất bản lần đầu vào: Apr 8, 2025

Đã cập nhật 2 lần kể từ khi xuất bản

Được viết bởi Kiara Fabbri Cựu tác giả tin tức công nghệ
Dịch bởi Nhóm Bản địa hóa và Dịch thuật Dịch vụ Bản địa hóa và Dịch thuật

Startup Trung Quốc DeepSeek, hợp tác cùng Đại học Tsinghua, cho biết họ đã phát triển một phương pháp thông minh hơn để giúp các mô hình trí tuệ nhân tạo suy nghĩ tốt hơn và nhanh hơn, mà không cần đến máy tính lớn hay nguồn lực đắt đỏ.

Đang vội? Dưới đây là những thông tin quan trọng nhanh chóng:

DeepSeek đã tạo ra một AI tự cải tiến sử dụng Phân Biệt Điều Chỉnh Theo Nguyên Tắc Tự Đặt (SPCT).
SPCT dạy AI cách đánh giá công việc của chính mình sử dụng các quy tắc tự tạo.
Phương pháp này nâng cao hiệu suất mà không cần sức mạnh tính toán lớn.

Đột phá đến từ một kỹ thuật mới có tên là Self-Principled Critique Tuning (SPCT). SPCT khác biệt so với việc đơn giản chỉ làm cho mô hình AI lớn hơn để cải thiện hiệu suất – SPCT không yêu cầu nhiều năng lượng và sức mạnh tính toán để dạy AI tự đánh giá công việc của mình dựa trên một bộ quy tắc do chính nó tạo ra.

Cách thức hoạt động của nó là thông qua một “quản lý” tích hợp, kiểm tra xem câu trả lời của AI cả về việc tuân thủ các quy tắc suy luận nội bộ và có vẻ phù hợp cho đầu ra của con người hay không. Khi AI cung cấp một câu trả lời chắc chắn, nó nhận được phản hồi tích cực, giúp nó cải thiện khả năng trả lời các câu hỏi tương tự trong các trường hợp tương lai.

DeepSeek áp dụng phương pháp này là một phần của hệ thống DeepSeek-GRM của mình, GRM là viết tắt của Generative Reward Modeling. GRM hoạt động khác biệt so với các phương pháp truyền thống bởi vì nó thực hiện các kiểm tra song song để tăng cả độ chính xác và tính nhất quán.

“Chúng tôi đề xuất Phương pháp Điều chỉnh Phê bình Tự nguyên tắc (SPCT) để thúc đẩy hành vi tạo phần thưởng có thể mở rộng,” các nhà nghiên cứu đã viết trong bài báo của họ. “SPCT cho phép [mô hình] linh hoạt đặt ra nguyên tắc và phê bình dựa trên câu truy vấn đầu vào và phản hồi, dẫn đến các phần thưởng kết quả tốt hơn.”

Với hệ thống này, DeepSeek khẳng định AI của họ hiện nay có thể hoạt động tốt hơn các đối thủ như Gemini của Google, Llama của Meta và GPT-4o của OpenAI, đặc biệt là khi đối mặt với các tác vụ phức tạp như suy luận hoặc ra quyết định, như Euronews đã ghi nhận.

Đáng chú ý, DeepSeek khẳng định họ dự định phát hành những công cụ mới này dưới dạng phần mềm mã nguồn mở, dù cho đến nay vẫn chưa công bố ngày phát hành.

AI của DeepSeek Học Cách Tự Suy Nghĩ

Chúng tôi rất vui khi bạn thích sản phẩm của chúng tôi!

Để lại bình luận