DeepCoder đạt hiệu suất mã hóa hàng đầu trong mô hình mở 14B hiệu quả

By Bùi Thanh Thảo

DeepCoder-14B, một mô hình mã hóa mới do Together AI và Agentica phát triển, đã đạt được hiệu suất ấn tượng, tương đương với các mô hình hàng đầu như OpenAI’s o3-mini. Điều đặc biệt là mô hình này hoàn toàn mã nguồn mở, bao gồm cả dữ liệu huấn luyện, mã nguồn và các tối ưu hóa hệ thống, giúp các nhà nghiên cứu cải thiện công việc của họ và thúc đẩy tiến bộ nhanh chóng.

DeepCoder-14B đã thể hiện hiệu suất mạnh mẽ trên nhiều tiêu chuẩn mã hóa khó khăn, bao gồm LiveCodeBench (LCB), Codeforces và HumanEval+. Mô hình này đạt được 60,6% Pass@1 trên LiveCodeBench, tương đương với hiệu suất của o3-mini và o1. Đáng chú ý, mặc dù được huấn luyện chủ yếu trên các nhiệm vụ mã hóa, mô hình này cũng cho thấy khả năng suy luận toán học cải thiện, đạt 73,8% trên tiêu chuẩn AIME 2024, tăng 4,1% so với mô hình cơ sở DeepSeek-R1-Distill-Qwen-14B.

Trong quá trình phát triển mô hình, nhóm nghiên cứu đã giải quyết một số thách thức chính trong việc huấn luyện các mô hình mã hóa bằng học tăng cường (RL). Thách thức đầu tiên là việc chọn lọc dữ liệu huấn luyện. Học tăng cường yêu cầu các tín hiệu phần thưởng đáng tin cậy để chỉ ra rằng đầu ra của mô hình là chính xác. Để giải quyết vấn đề này, nhóm DeepCoder đã triển khai một quy trình nghiêm ngặt để thu thập các ví dụ từ các bộ dữ liệu khác nhau và lọc chúng dựa trên tính hợp lệ, độ phức tạp và sự trùng lặp. Quy trình này đã tạo ra 24.000 vấn đề chất lượng cao, cung cấp nền tảng vững chắc cho việc huấn luyện RL hiệu quả.

Nhóm nghiên cứu cũng thiết kế một hàm phần thưởng đơn giản chỉ cung cấp tín hiệu tích cực nếu mã được tạo ra vượt qua tất cả các bài kiểm tra đơn vị trong một khoảng thời gian cụ thể. Kết hợp với các ví dụ huấn luyện chất lượng cao, hệ thống phần thưởng tập trung vào kết quả này ngăn chặn mô hình học các thủ thuật như in các câu trả lời đã ghi nhớ cho các bài kiểm tra công khai hoặc tối ưu hóa cho các trường hợp cạnh đơn giản mà không giải quyết vấn đề cốt lõi.

DeepCoder-14B không chỉ là một mô hình mã hóa mạnh mẽ mà còn là một bước tiến quan trọng trong việc mở rộng khả năng của AI trong lĩnh vực mã hóa và suy luận. Việc mở mã nguồn của mô hình này, cùng với dữ liệu huấn luyện và các tối ưu hóa hệ thống, sẽ giúp cộng đồng nghiên cứu tiếp tục phát triển và cải thiện các mô hình AI, đồng thời thúc đẩy sự tiến bộ trong lĩnh vực mã hóa và suy luận.