Deep Cogito ra mắt các mô hình ngôn ngữ lớn mới, vượt trội so với các mô hình cùng kích thước

By Bùi Thanh Thảo

Deep Cogito, một công ty có trụ sở tại San Francisco, vừa công bố một loạt các mô hình ngôn ngữ lớn (LLM) mở mới, được cho là vượt trội so với các mô hình cùng kích thước hiện có trên thị trường. Công ty này, với sứ mệnh “xây dựng siêu trí tuệ tổng quát”, đã ra mắt các phiên bản xem trước của các mô hình LLM với các kích thước 3 tỷ, 8 tỷ, 14 tỷ, 32 tỷ và 70 tỷ tham số.

Điểm nổi bật trong lần ra mắt này là phương pháp đào tạo mới mang tên Iterated Distillation and Amplification (IDA). Deep Cogito mô tả IDA là một chiến lược căn chỉnh có thể mở rộng và hiệu quả cho siêu trí tuệ tổng quát, sử dụng cải tiến tự lặp lại. Phương pháp này nhằm khắc phục những hạn chế vốn có của các mô hình LLM hiện tại, nơi mà trí thông minh của mô hình thường bị giới hạn bởi khả năng của các mô hình giám sát lớn hơn hoặc của các nhà quản lý con người.

Ảnh: Internet

Quá trình IDA bao gồm hai bước chính được lặp đi lặp lại: khuếch đại và chưng cất. Khuếch đại sử dụng nhiều tính toán hơn để cho phép mô hình đưa ra các giải pháp hoặc khả năng tốt hơn, tương tự như các kỹ thuật lý luận nâng cao. Chưng cất là quá trình nội hóa các khả năng đã được khuếch đại này vào các tham số của mô hình. Deep Cogito cho biết điều này tạo ra một “vòng phản hồi tích cực” nơi mà trí thông minh của mô hình tăng tỷ lệ thuận với tài nguyên tính toán và hiệu quả của quá trình IDA, thay vì bị giới hạn bởi trí thông minh của người giám sát.

Các mô hình Cogito mới, dựa trên các điểm kiểm tra của Llama và Qwen, được tối ưu hóa cho các trường hợp sử dụng như lập trình, gọi hàm và các ứng dụng đại lý. Một tính năng quan trọng là khả năng kép của chúng: mỗi mô hình có thể trả lời trực tiếp hoặc tự phản ánh trước khi trả lời, tương tự như các mô hình lý luận. Tuy nhiên, Deep Cogito lưu ý rằng họ chưa tối ưu hóa cho các chuỗi lý luận rất dài, do người dùng ưa thích các câu trả lời nhanh hơn và hiệu quả của việc chưng cất các chuỗi ngắn hơn.

Deep Cogito khẳng định rằng các mô hình của họ vượt trội so với các mô hình mở tốt nhất hiện có cùng kích thước, bao gồm các đối thủ từ LLAMA, DeepSeek và Qwen, trên hầu hết các tiêu chuẩn đánh giá. Đặc biệt, mô hình 70 tỷ tham số của Deep Cogito thậm chí còn vượt qua hiệu suất của mô hình Llama 4 109B Mixture-of-Experts (MoE) mới ra mắt gần đây.