Nghiên cứu mới cho thấy các mô hình của OpenAI “ghi nhớ” nội dung có bản quyền

By Bùi Thanh Thảo

Một nghiên cứu mới đây đã làm sáng tỏ những lo ngại về việc OpenAI có thể đã huấn luyện một số mô hình AI của mình trên nội dung có bản quyền mà không được phép. Nghiên cứu này được thực hiện bởi các nhà nghiên cứu từ Đại học Washington, Đại học Copenhagen và Stanford, và đã đề xuất một phương pháp mới để xác định dữ liệu huấn luyện mà các mô hình đã “ghi nhớ”.

Nghiên cứu sử dụng một phương pháp gọi là “high-surprisal words” để xác định các đoạn văn bản mà mô hình có thể đã ghi nhớ. Các từ “high-surprisal” là những từ ít xuất hiện trong ngữ cảnh của một tác phẩm lớn hơn. Ví dụ, từ “radar” trong câu “Jack và tôi ngồi yên lặng với radar kêu vo vo” được coi là “high-surprisal” vì nó ít có khả năng xuất hiện hơn so với các từ như “engine” hoặc “radio”.

Ảnh: Internet

Các nhà nghiên cứu đã loại bỏ các từ “high-surprisal” từ các đoạn văn bản của sách hư cấu và các bài báo của New York Times, sau đó yêu cầu các mô hình của OpenAI, bao gồm GPT-4 và GPT-3.5, đoán các từ bị che giấu. Nếu các mô hình đoán đúng, điều này cho thấy chúng đã ghi nhớ đoạn văn bản trong quá trình huấn luyện.

Kết quả của nghiên cứu cho thấy GPT-4 đã ghi nhớ các phần của các cuốn sách hư cấu phổ biến, bao gồm các cuốn sách trong một tập dữ liệu chứa các mẫu sách điện tử có bản quyền gọi là BookMIA. Ngoài ra, mô hình này cũng ghi nhớ các phần của các bài báo của New York Times, mặc dù ở mức độ thấp hơn.

Abhilasha Ravichander, một nghiên cứu sinh tiến sĩ tại Đại học Washington và là đồng tác giả của nghiên cứu, cho biết: “Để có các mô hình ngôn ngữ lớn đáng tin cậy, chúng ta cần có các mô hình mà chúng ta có thể kiểm tra và kiểm toán một cách khoa học”. Nghiên cứu này nhấn mạnh sự cần thiết của việc minh bạch dữ liệu trong toàn bộ hệ sinh thái AI.

OpenAI hiện đang đối mặt với các vụ kiện từ các tác giả, lập trình viên và các chủ sở hữu quyền khác, cáo buộc công ty sử dụng tác phẩm của họ để phát triển các mô hình mà không có sự cho phép. OpenAI đã lâu nay bảo vệ mình bằng cách viện dẫn quyền sử dụng hợp lý, nhưng các nguyên đơn cho rằng không có ngoại lệ nào trong luật bản quyền của Mỹ cho dữ liệu huấn luyện.

Nghiên cứu này làm nổi bật những thách thức về pháp lý và đạo đức mà các công ty AI phải đối mặt khi sử dụng dữ liệu có bản quyền để huấn luyện mô hình. Nó cũng nhấn mạnh sự cần thiết của các công cụ để kiểm tra và kiểm toán các mô hình ngôn ngữ lớn, nhằm đảm bảo tính minh bạch và trách nhiệm trong việc sử dụng dữ liệu.

Nghiên cứu mới này đã cung cấp cái nhìn sâu sắc về cách các mô hình AI của OpenAI có thể đã ghi nhớ nội dung có bản quyền, đặt ra những câu hỏi quan trọng về tính minh bạch và sử dụng hợp lý trong huấn luyện AI. Việc phát triển các công cụ để kiểm tra và kiểm toán các mô hình này là cần thiết để đảm bảo rằng chúng được sử dụng một cách có trách nhiệm và tuân thủ các quy định pháp lý.