Salesforce, tập đoàn công nghệ nổi tiếng với nền tảng quản lý quan hệ khách hàng (CRM), vừa công bố một loạt sáng kiến mới nhằm giải quyết vấn đề mà họ gọi là “trí tuệ gồ ghề” (jagged intelligence) trong trí tuệ nhân tạo (AI). Đây là một khái niệm dùng để chỉ tình trạng AI có hiệu suất không đồng đều ở các tác vụ khác nhau, ví dụ giỏi viết văn nhưng lại yếu trong toán học hoặc lý luận logic.
Trong báo cáo được công bố, Salesforce nhấn mạnh rằng nhiều mô hình ngôn ngữ lớn (LLM) hiện nay đang có biểu hiện không nhất quán về mặt trí tuệ, nghĩa là chúng có thể xuất sắc trong một số lĩnh vực nhưng lại gây thất vọng ở những lĩnh vực khác và tình trạng này không thể đo lường chính xác chỉ bằng một điểm số tổng hợp duy nhất.
Ảnh: OpenTools
Vì vậy, Salesforce đề xuất cách tiếp cận mới: đánh giá AI dựa trên sự đa dạng và độ cân bằng của năng lực, thay vì chỉ đo bằng một thước đo hiệu suất trung bình như trước đây.
Để hiện thực hóa ý tưởng này, Salesforce đã phát triển một tiêu chuẩn đánh giá mới mang tên LLM Sprawl. Đây là một công cụ đánh giá mở, cho phép so sánh hiệu suất của các mô hình AI dựa trên nhiều chiều năng lực khác nhau như suy luận logic, lập trình, toán học, viết sáng tạo, tóm tắt văn bản, và nhiều kỹ năng khác.
LLM Sprawl đặc biệt chú trọng vào việc hiển thị mức độ “gồ ghề” – tức sự thiếu đồng đều giữa các kỹ năng để các doanh nghiệp và nhà phát triển có cái nhìn sâu hơn khi lựa chọn mô hình AI phù hợp với nhu cầu cụ thể.
Song song với bộ chỉ số đánh giá, Salesforce cũng giới thiệu các mô hình AI mã nguồn mở mới thuộc dòng xGen, bao gồm xGen7B-8K và xGen7B-32K. Đây là các mô hình ngôn ngữ dung lượng 7 tỷ tham số, được tối ưu cho hiệu suất cao trên cả hai tiêu chí: chính xác và nhất quán.
Các mô hình này được phát hành qua nền tảng Hugging Face và GitHub, cùng với báo cáo kỹ thuật chi tiết và mã huấn luyện, giúp cộng đồng dễ dàng tái tạo và tùy chỉnh theo nhu cầu thực tế.
Trong bối cảnh AI đang len lỏi vào hầu hết các hoạt động của doanh nghiệp, từ hỗ trợ khách hàng, tạo nội dung, đến phân tích dữ liệu – việc lựa chọn một mô hình “đều tay” và ít “gồ ghề” sẽ ngày càng quan trọng. Salesforce tin rằng các công cụ đo lường chi tiết như LLM Sprawl sẽ giúp các tổ chức tránh được “ảo tưởng sức mạnh” khi chỉ nhìn vào điểm trung bình, và thay vào đó hiểu rõ mô hình nào phù hợp nhất cho từng tình huống sử dụng cụ thể.
Với các mô hình xGen mới và chỉ số LLM Sprawl, Salesforce không chỉ đóng góp thêm vào kho công cụ mã nguồn mở trong lĩnh vực AI, mà còn định hình lại cách chúng ta đánh giá và lựa chọn trí tuệ nhân tạo. Giải quyết bài toán “trí tuệ gồ ghề” sẽ là một bước tiến quan trọng để đưa AI đến gần hơn với các ứng dụng thực tiễn, ổn định và đáng tin cậy trong thế giới doanh nghiệp.