Elon Musk: AI cần dữ liệu tổng hợp khi dữ liệu thực tế đã cạn kiệt

By Bùi Thanh Thảo

Elon Musk đã đồng ý với các chuyên gia AI khác rằng dữ liệu thực tế để huấn luyện các mô hình AI đã gần như cạn kiệt. Trong một cuộc trò chuyện trực tiếp với chủ tịch Stagwell, Mark Penn, trên nền tảng X, Musk cho biết: “Chúng ta đã cạn kiệt về cơ bản tổng hợp kiến thức của con người trong việc huấn luyện AI. Điều này đã xảy ra vào năm ngoái”.

Credit: NewsBytes

Musk, người sở hữu công ty AI xAI, nhấn mạnh rằng cách duy nhất để bổ sung dữ liệu thực tế là sử dụng dữ liệu tổng hợp, tức là dữ liệu được tạo ra bởi chính các mô hình AI. Ông giải thích: “Với dữ liệu tổng hợp, AI sẽ tự đánh giá và trải qua quá trình tự học”. Các công ty công nghệ lớn như Microsoft, Meta, OpenAI và Anthropic đã bắt đầu sử dụng dữ liệu tổng hợp để huấn luyện các mô hình AI hàng đầu của họ.

Việc sử dụng dữ liệu tổng hợp có nhiều ưu điểm, bao gồm tiết kiệm chi phí. Ví dụ, mô hình Palmyra X 004 của startup AI Writer, được phát triển gần như hoàn toàn từ các nguồn tổng hợp, chỉ tốn 700,000 USD để phát triển, so với ước tính 4.6 triệu USD cho một mô hình tương đương của OpenAI. Tuy nhiên, cũng có những nhược điểm. Một số nghiên cứu cho thấy dữ liệu tổng hợp có thể dẫn đến sự suy giảm sáng tạo của mô hình và tăng tính thiên vị trong kết quả.

Musk và các chuyên gia khác dự đoán rằng việc thiếu dữ liệu huấn luyện sẽ buộc ngành công nghiệp AI phải thay đổi cách phát triển mô hình hiện nay. Dữ liệu tổng hợp sẽ trở thành một phần quan trọng trong quá trình này, giúp các mô hình AI tiếp tục phát triển và cải thiện.