Trong một phán quyết bước ngoặt vừa được đưa ra, Tòa án quận Bắc California đã xác định rằng việc công ty Anthropic sử dụng sách in mua hợp pháp để quét và huấn luyện mô hình ngôn ngữ là “fair use – sử dụng hợp lý” theo luật bản quyền Mỹ. Tuy nhiên, công ty này vẫn phải đối mặt với phiên xử riêng khi bị cáo buộc sử dụng hàng triệu đầu sách vi phạm bản quyền lấy từ thư viện trực tuyến lậu.
Image: Cath Virginia / The Verge, Getty Images
Thẩm phán William Alsup khẳng định hành vi mua sách thật, rồi quét số hóa để huấn luyện mô hình Claude là một hành vi sáng tạo đích thực. Giống như “hãy học để viết khác, chứ không phải để sao chép” – mục tiêu lớn của luật bản quyền là khuyến khích sự sáng tạo, và điều này thực sự xảy ra khi máy học biến nguồn dữ liệu thành kiến thức mới . Theo ông, mô hình AI không chỉ tổng hợp nội dung, mà còn sáng tạo câu chữ mới, mở ra giá trị vượt qua nguyên tác.
Phán quyết của ông Alsup là tiền lệ đầu tiên tại Mỹ công nhận huấn luyện AI trên sách mua bản quyền là hành vi hợp pháp, tạo động lực mạnh mẽ cho các công ty AI như OpenAI, Microsoft hay Meta vốn đang đối mặt với các vụ kiện tương tự.
Mặc dù thắng nửa trận ở phần sách mua bản quyền, Anthropic lại “trượt ngã” với cáo buộc sử dụng hơn 7 triệu bản sách lậu từ các thư viện trực tuyến không phép như The Pile, Books3. Theo thẩm phán, dù công ty đã mua lại sách sau đó, hành vi trước đó vẫn bị coi là vi phạm – và không được bào chữa bằng fair uúe.
Tòa sẽ tổ chức một phiên xét xử riêng vào tháng 12 để xác định mức độ thiệt hại. Theo luật, thiệt hại dân sự có thể lên đến hàng tỷ USD nếu Anthropic chịu trách nhiệm cho hành vi này.
Phán quyết chia rõ hai giai đoạn:
Thẩm phán Alsup nhấn mạnh rằng nếu Anthropic muốn sử dụng bất kỳ nguồn dữ liệu nào, phải trả giá hoặc đưa ra lý do chính đáng – việc cứ tải về miễn phí từ nguồn lậu là lựa chọn không thể biện minh.
Phán quyết này mở đường cho các công ty AI xây dựng mô hình lớn dựa trên dữ liệu bản quyền, nếu tuân thủ quy trình mua-bỏ bản vật lý. Nó cũng đặt ra một chuẩn mực để tránh kiện tụng: người chơi phải chứng minh nguồn dữ liệu “sạch” và minh bạch được bản quyền.
Tuy nhiên, “vết đen” sách lậu của Anthropic vẫn là lời cảnh báo rõ ràng: nếu lấy cẩu thả từ thư viện không hợp pháp, vẫn có thể bị xử phạt nặng và tổn hại uy tín, tài chính.
Trước Anthropic, Meta từng không thắng trong việc yêu cầu tạm ngừng sử dụng lời bài hát trong huấn luyện AI. Nhưng án lệ này có thể hỗ trợ các vụ chống văng dốc vụ kiện cancel – bao gồm OpenAI hay Google – nếu họ “dọn sạch” dữ liệu bản quyền.
Đồng thời, vụ Anthropic nêu bật thực tiễn: các vụ kiện về AI không chỉ là tranh luận lý thuyết, mà còn dựa vào thao tác kỹ thuật như trích lọc – làng đã đào sâu cơ chế hoạt động nội bộ của AI. Ví dụ, các nghiên cứu chỉ ra mô hình LLM thỉnh thoảng “nhớ gần như trọn” nguyên tác, tạo ra rủi ro sao chép trực tiếp và vi phạm.
Anthropic có lý khi ăn mừng phần thắng: đây là cơ sở đầu tiên khẳng định mô hình AI “sáng tạo dựa trên tri thức”, chứ không phải đạo văn dữ liệu đầu vào. Thế nhưng, phần “chết đất” do sách lậu là ví dụ rõ ràng rằng một lỗi nhỏ cũng có thể khiến cả hệ thống sụp đổ.
Nguồn: The Verge