Un juge statue : entraîner l'IA sur des livres d'auteurs est légal, mais les pirater ne l'est pas

Judge Rules Training AI on Authors' Books Is Legal But Pirating Them Is Not

Un juge statue : entraîner l'IA sur des livres d'auteurs est légal, mais les pirater ne l'est pas

Un juge fédéral en Californie a statué lundi qu'Anthropic avait probablement violé la loi sur le droit d'auteur en piratant des livres d'auteurs pour créer un immense ensemble de données et une bibliothèque « permanente », mais que l'entraînement de son IA sur ces livres sans l'autorisation des auteurs constitue une utilisation équitable transformative selon la loi sur le droit d'auteur. Cette décision complexe est l'une des premières du genre dans une série de procès très médiatisés intentés par des auteurs et des artistes contre des entreprises d'IA, et elle est globalement très défavorable aux auteurs, artistes, écrivains et développeurs web.

Dans cette affaire, les auteurs Andrea Bartz, Charles Graeber et Kirk Wallace Johnson ont poursuivi Anthropic, créateur de la famille de modèles linguistiques Claude, l'une des nombreuses poursuites judiciaires contre les géants de l'IA. Les auteurs ont intenté une action contre Anthropic car l'entreprise a extrait des copies complètes de leurs livres pour entraîner ses modèles d'IA à partir d'un ensemble de données désormais tristement célèbre appelé Books3, ainsi que des sites de piratage LibGen et Pirate Library Mirror (PiLiMi).

Le procès affirme également qu'Anthropic a acheté des exemplaires physiques d'occasion de livres et les a numérisés pour entraîner l'IA. « Dès le début, Anthropic avait de nombreuses sources où elle aurait pu acheter des livres, mais elle a préféré les voler pour éviter les 'traverses juridiques/pratiques/commerciales', comme l'a dit le cofondateur et PDG Dario Amodei. Ainsi, en janvier ou février 2021, un autre cofondateur d'Anthropic, Ben Mann, a téléchargé Books3, une bibliothèque en ligne de 196 640 livres dont il savait qu'ils avaient été compilés à partir de copies non autorisées de livres protégés par le droit d'auteur — c'est-à-dire piratés », a écrit William Alsup, juge fédéral du district nord de la Californie, dans sa décision de lundi.

« Les prochaines acquisitions piratées d'Anthropic ont consisté à télécharger des copies redistribuées d'autres bibliothèques pirates. En juin 2021, Mann a téléchargé de cette manière au moins cinq millions d'exemplaires de livres de Library Genesis, ou LibGen, dont il savait qu'ils avaient été piratés. Et, en juillet 2022, Anthropic a également téléchargé au moins deux millions d'exemplaires de livres de Pirate Library Mirror, ou PiLiMi, dont Anthropic savait qu'ils avaient été piratés. »

Phán quyết gây tranh cãi: Huấn luyện AI bằng sách của tác giả là hợp pháp, nhưng vi phạm bản quyền thì không

Một thẩm phán liên bang tại California đã ra phán quyết vào thứ Hai rằng Anthropic có khả năng vi phạm luật bản quyền khi sử dụng sách của các tác giả một cách bất hợp pháp để xây dựng một bộ dữ liệu khổng lồ và thư viện 'vĩnh viễn', nhưng việc huấn luyện AI bằng những cuốn sách này mà không có sự cho phép của tác giả lại được coi là 'sử dụng hợp lý' theo luật bản quyền. Đây là một trong những phán quyết đầu tiên thuộc loại này trong loạt vụ kiện bản quyền nổi tiếng giữa các tác giả, nghệ sĩ với các công ty AI, và nó được đánh giá là bất lợi lớn cho giới sáng tạo.

Vụ việc liên quan đến ba tác giả Andrea Bartz, Charles Graeber và Kirk Wallace Johnson khi họ kiện Anthropic - công ty phát triển mô hình ngôn ngữ lớn Claude. Đây chỉ là một trong hàng loạt vụ kiện tương tự nhắm vào các gã khổng lồ AI. Nguyên đơn cáo buộc Anthropic đã thu thập toàn bộ nội dung sách của họ từ bộ dữ liệu Books3 đầy tai tiếng cùng các trang web vi phạm bản quyền LibGen và Pirate Library Mirror (PiLiMi) để đào tạo AI.

Đơn kiện còn tiết lộ Anthropic đã mua lại sách in đã qua sử dụng rồi scan để phục vụ mục đích đào tạo AI. Thẩm phán William Alsup của Tòa án Quận Bắc California viết trong phán quyết: 'Ngay từ đầu, Anthropic đã có nhiều nguồn để mua sách hợp pháp, nhưng họ chọn cách ăn cắp để tránh những rắc rối pháp lý' như lời đồng sáng lập kiêm CEO Dario Amodei. Vào tháng 1 hoặc 2/2021, một đồng sáng lập khác là Ben Mann đã tải xuống Books3 - thư viện trực tuyến chứa 196.640 cuốn sách mà ông ta biết rõ là được tổng hợp từ bản sao trái phép.

Theo phán quyết, tháng 6/2021, Mann tiếp tục tải về ít nhất 5 triệu bản sách từ LibGen - nơi chứa sách vi phạm bản quyền. Đến tháng 7/2022, Anthropic lại tải thêm 2 triệu bản sách từ PiLiMi khi biết rõ đây là nguồn sách lậu.