Tổ chức nghiên cứu AI phi lợi nhuận EleutherAI đã chính thức công bố bộ dữ liệu huấn luyện mới mang tên The Common Pile v0.1 – một trong những tập hợp văn bản có giấy phép và thuộc phạm vi công cộng lớn nhất từng được phát hành để huấn luyện các mô hình trí tuệ nhân tạo.
Bộ dữ liệu này có dung lượng lên tới 8 terabyte, được xây dựng trong vòng hai năm với sự hợp tác của các startup AI như Poolside, Hugging Face và nhiều tổ chức học thuật. Điểm đặc biệt của The Common Pile là toàn bộ nội dung đều được lấy từ các nguồn có giấy phép rõ ràng hoặc thuộc phạm vi công cộng, bao gồm:
Ảnh: Startup Ecosystem Canada
Bộ dữ liệu này hiện đã được phát hành công khai trên nền tảng Hugging Face và GitHub, cho phép các nhà nghiên cứu và nhà phát triển tải về và sử dụng miễn phí.
Trong bối cảnh nhiều công ty AI lớn như OpenAI và Meta đang đối mặt với các vụ kiện liên quan đến việc sử dụng dữ liệu có bản quyền để huấn luyện mô hình, EleutherAI chọn một hướng đi khác: minh bạch và tuân thủ pháp lý.
Stella Biderman – giám đốc điều hành của EleutherAI – cho biết: “Các vụ kiện bản quyền không làm thay đổi thực chất cách các công ty thu thập dữ liệu, nhưng lại khiến mức độ minh bạch giảm mạnh. Điều này gây tổn hại cho toàn bộ cộng đồng nghiên cứu AI”.
EleutherAI hy vọng rằng The Common Pile sẽ trở thành một tiêu chuẩn mới cho việc huấn luyện AI một cách có đạo đức, minh bạch và có thể kiểm chứng.
Cùng với bộ dữ liệu, EleutherAI cũng công bố hai mô hình AI mới: Comma v0.1-1T và Comma v0.1-2T, mỗi mô hình có 7 tỷ tham số và được huấn luyện chỉ trên một phần nhỏ của The Common Pile. Dù vậy, chúng đã đạt hiệu suất ngang ngửa với các mô hình nổi tiếng như LLaMA của Meta trong các bài kiểm tra về lập trình, hiểu hình ảnh và toán học.
Điều này chứng minh rằng chất lượng dữ liệu quan trọng hơn số lượng, và một mô hình được huấn luyện trên dữ liệu có chọn lọc, minh bạch vẫn có thể đạt hiệu suất cao mà không cần vi phạm bản quyền.
The Common Pile v0.1 không chỉ là một bộ dữ liệu – nó là tuyên ngôn cho một hướng đi khác trong ngành AI: mở, minh bạch và có đạo đức. Trong khi các công ty lớn ngày càng khép kín vì lo ngại pháp lý, EleutherAI đang mở ra một con đường mới, nơi cộng đồng có thể cùng nhau xây dựng các mô hình AI mạnh mẽ mà không đánh đổi sự minh bạch hay quyền sở hữu trí tuệ.