DeepSeek phát hành phiên bản nâng cấp của mô hình AI R1

By Nhã Thanh

Công ty khởi nghiệp AI Trung Quốc DeepSeek đã chính thức phát hành phiên bản nâng cấp của mô hình AI suy luận R1 trên nền tảng mã nguồn mở Hugging Face. Động thái này không chỉ đánh dấu bước tiến mới trong công nghệ AI của Trung Quốc, mà còn làm dấy lên làn sóng cạnh tranh gay gắt với các ông lớn như OpenAI và Meta. 

Phiên bản mới của R1 được DeepSeek mô tả là một bản nâng cấp “nhẹ”, nhưng vẫn gây ấn tượng mạnh với cộng đồng công nghệ nhờ quy mô khổng lồ – 685 tỷ tham số. Mô hình này được phát hành dưới giấy phép MIT, cho phép sử dụng thương mại tự do, và hiện đã có mặt trên Hugging Face. Tuy nhiên, do kích thước lớn, mô hình này khó có thể chạy trên phần cứng tiêu dùng thông thường mà cần đến các hệ thống máy chủ chuyên dụng.

Ảnh: TechJuice

Ngay sau khi R1 được phát hành, thị trường công nghệ toàn cầu đã có phản ứng mạnh. CNBC cho biết mô hình R1 của DeepSeek đã vượt mặt nhiều đối thủ từ OpenAI và Meta trong các bài kiểm tra suy luận logic, khiến giá trị cổ phiếu của các công ty công nghệ lớn tại Mỹ sụt giảm hàng tỷ USD. 

Điều đáng chú ý là DeepSeek phát triển mô hình này với chi phí thấp và thời gian ngắn, bất chấp các lệnh cấm xuất khẩu chip từ Mỹ. Công ty đã sử dụng các phiên bản giới hạn như Nvidia H800 thay vì H100 để huấn luyện mô hình cho thấy khả năng thích nghi và sáng tạo trong điều kiện hạn chế.

Trên bảng xếp hạng LiveCodeBench – nơi đánh giá hiệu suất các mô hình AI – phiên bản nâng cấp của R1 hiện chỉ xếp sau các mô hình o4-mini và o3 của OpenAI, cho thấy mức độ cạnh tranh cực kỳ sát sao. 

DeepSeek không tổ chức buổi ra mắt rầm rộ mà chỉ âm thầm cập nhật mô hình lên Hugging Face. Tuy nhiên, giới chuyên môn nhận định đây là một tuyên bố ngầm nhưng mạnh mẽ về tham vọng của Trung Quốc trong cuộc đua AI toàn cầu.

DeepSeek hiện là ví dụ điển hình cho việc Trung Quốc vẫn tiếp tục phát triển AI mạnh mẽ bất chấp các nỗ lực kiềm chế từ phía Mỹ. Trong cùng thời điểm, các công ty công nghệ lớn khác của Trung Quốc như Baidu và Tencent cũng đang tìm cách tối ưu hóa mô hình AI để thích nghi với tình trạng thiếu hụt chip cao cấp.