Google thử nghiệm kiến trúc Diffusion cho mô hình ngôn ngữ lớn: Bước ngoặt vượt ra khỏi GPT truyền thống

By Nhã Thanh

Trong một động thái có thể định hình lại cách triển khai các mô hình ngôn ngữ lớn (LLM), Google DeepMind vừa công bố thử nghiệm Gemini Diffusion – một mô hình ngôn ngữ dựa trên kiến trúc Diffusion, vốn từng được sử dụng chủ yếu trong lĩnh vực tạo ảnh như DALL·E hay Imagen. Đây là nỗ lực của Google nhằm vượt qua những giới hạn của kiến trúc autoregressive truyền thống như GPT. 

Khác với GPT – vốn tạo văn bản theo từng từ một, dựa trên từ trước đó – mô hình Diffusion bắt đầu từ nhiễu ngẫu nhiên và dần “khử nhiễu” để tạo ra một đoạn văn bản hoàn chỉnh. Quá trình này cho phép xử lý song song nhiều đoạn văn, thay vì tuần tự từng token, giúp tăng tốc độ tạo nội dung một cách đáng kể.

Theo Google, Gemini Diffusion có thể tạo ra 1.000–2.000 token mỗi giây, nhanh gấp gần 8 lần so với Gemini 2.5 Flash – vốn chỉ đạt khoảng 272 token/giây. Ngoài ra, quá trình khử nhiễu còn giúp mô hình sửa lỗi trong quá trình tạo, giảm hiện tượng “ảo tưởng” (hallucination) thường gặp ở GPT.

Ảnh: Medium

Mô hình Diffusion có khả năng tạo ra văn bản mượt mà, nhất quán và dễ kiểm soát hơn trong các đoạn dài. Tuy nhiên, nó cũng có một số hạn chế như giảm độ chính xác ở cấp độ từng token và khó kiểm soát chi tiết nhỏ trong văn bản. Dù vậy, với tốc độ và khả năng xử lý song song, Diffusion được kỳ vọng sẽ phù hợp với các ứng dụng như tóm tắt văn bản, tạo nội dung hàng loạt, hoặc hội thoại thời gian thực.

Việc Google thử nghiệm Gemini Diffusion không chỉ là một bước tiến kỹ thuật, mà còn là dấu hiệu cho thấy hãng đang tìm kiếm kiến trúc mới để thay thế hoặc bổ sung cho GPT. Trong khi GPT vẫn là tiêu chuẩn vàng cho nhiều ứng dụng AI hiện nay, Diffusion có thể mở ra một hướng đi mới – nơi tốc độ, khả năng sửa lỗi và tính linh hoạt được ưu tiên hơn độ chính xác từng từ.

Google hiện đang cung cấp Gemini Diffusion dưới dạng bản demo thử nghiệm, và sẽ chia sẻ thêm tại hội nghị VB Transform vào cuối tháng 6, cùng với các đối tác như LinkedIn và các nhà lãnh đạo AI doanh nghiệp. 

Kiến trúc Diffusion có thể là bước tiếp theo trong hành trình phát triển mô hình ngôn ngữ lớn. Khi Google chuyển từ GPT sang Diffusion, chúng ta có thể kỳ vọng vào một thế hệ AI mới – nhanh hơn, thông minh hơn và ít lỗi hơn. Đây không chỉ là một cải tiến kỹ thuật, mà là một sự thay đổi trong cách chúng ta nghĩ về ngôn ngữ và máy móc.