Anthropic a découpé des millions de livres d'occasion pour entraîner Claude – et en a téléchargé plus de 7 millions de versions piratées, selon un juge

Anthropic cut up millions of used books to train Claude — and downloaded over 7 million pirated ones too, a judge said

Anthropic a découpé des millions de livres d'occasion pour entraîner Claude – et en a téléchargé plus de 7 millions de versions piratées, selon un juge

Dans une affaire de droit d'auteur très médiatisée concernant l'IA, le juge William Alsup du district nord de la Californie a révélé qu'Anthropic avait scanné de manière destructive des millions de livres protégés par le droit d'auteur pour former son chatbot Claude. La société, soutenue par Amazon et Alphabet, a également téléchargé plus de 7 millions de livres piratés.

Anthropic a dépensé "plusieurs millions de dollars" pour acheter des livres imprimés d'occasion. La société ou ses fournisseurs ont ensuite retiré les reliures, découpé les pages et numérisé les ouvrages pour créer des fichiers numériques. Les livres originaux ont été jetés après numérisation, et les versions numériques stockées dans une "bibliothèque de recherche" interne.

Le juge a également constaté qu'Anthropic avait téléchargé massivement des livres piratés. En 2021, le cofondateur Ben Mann a téléchargé "au moins 5 millions de livres" depuis Library Genesis, sachant qu'ils étaient piratés. Un an plus tard, la société en a téléchargé 2 millions supplémentaires depuis Pirate Library Mirror.

Selon le juge Alsup, Anthropic préférait "voler" des livres pour éviter les "lourdeurs juridiques et pratiques", comme l'a expliqué le PDG Dario Amodei. L'an dernier, trois auteurs ont poursuivi Anthropic en justice, affirmant que la société avait utilisé des versions piratées de leurs livres sans permission ni compensation.

Le juge a estimé que l'utilisation par Anthropic de livres protégés par le droit d'auteur pour former ses modèles d'IA constituait un "usage loyal", car "extrêmement transformateur". Il a comparé ce processus à celui d'un apprenti écrivain s'inspirant d'œuvres existantes pour créer quelque chose de nouveau.

Cependant, Alsup a tracé une ligne claire concernant le piratage. Il a déclaré qu'Anthropic n'avait "aucun droit d'utiliser des copies piratées pour sa bibliothèque centrale". La création d'une bibliothèque permanente à usage général ne justifiait pas le piratage, selon lui.

Cette décision intervient dans un contexte de multiplication des procès contre les géants de l'IA. Alors que les créateurs estiment que l'utilisation de leurs œuvres sans permission viole leurs droits, les entreprises d'IA soutiennent que cette pratique relève de l'usage loyal.

Un porte-parole d'Anthropic s'est déclaré satisfait de la décision concernant l'usage loyal, affirmant que cette approche était "conforme à l'objectif du droit d'auteur qui est de permettre la créativité et de favoriser le progrès scientifique".

Phán quyết gây chấn động: Anthropic xé hàng triệu sách cũ để đào tạo AI Claude - và tải xuống hơn 7 triệu bản lậu

Trong một vụ kiện bản quyền AI được quan tâm rộng rãi, thẩm phán William Alsup tại California đã tiết lộ Anthropic đã "quét phá hủy" hàng triệu cuốn sách có bản quyền để đào tạo chatbot Claude. Công ty này, được Amazon và Alphabet hậu thuẫn, còn tải xuống hơn 7 triệu đầu sách vi phạm bản quyền.

Anthropic đã chi "hàng triệu đô la" để mua sách in đã qua sử dụng. Họ hoặc nhà cung cấp sau đó bóc bìa, cắt trang và scan thành file số. Sách gốc bị vứt bỏ sau khi số hóa, còn bản kỹ thuật số được lưu trong "thư viện nghiên cứu" nội bộ.

Thẩm phán phát hiện Anthropic còn tải lượng lớn sách lậu. Năm 2021, đồng sáng lập Ben Mann tải "ít nhất 5 triệu cuốn" từ Library Genesis dù biết là vi phạm. Một năm sau, công ty tải thêm 2 triệu cuốn từ Pirate Library Mirror.

Theo thẩm phán Alsup, Anthropic thích "ăn cắp" sách để tránh "rào cản pháp lý/thực tiễn/kinh doanh", như CEO Dario Amodei thừa nhận. Năm ngoái, ba tác giả đã kiện Anthropic vì sử dụng sách lậu của họ mà không xin phép hay bồi thường.

Thẩm phán xác định việc Anthropic dùng sách bản quyền đào tạo AI thuộc "sử dụng hợp lý" do "tính chuyển đổi vượt trội". Ông so sánh quá trình này với việc nhà văn tập sự học hỏi từ tác phẩm khác để sáng tạo cái mới.

Tuy nhiên, Alsup phân biệt rõ với hành vi vi phạm bản quyền. Ông tuyên bố Anthropic "không có quyền dùng sách lậu cho thư viện trung tâm". Việc xây dựng thư viện vĩnh viễn đa mục đích không thể biện minh cho hành vi vi phạm.

Phán quyết này ra đời giữa làn sóng kiện tụng nhắm vào các ông lớn AI. Trong khi giới sáng tạo cho rằng việc sử dụng tác phẩm không phép xâm phạm quyền lợi, các công ty AI khẳng định đó là sử dụng hợp lý.

Phát ngôn viên Anthropic bày tỏ hài lòng với phán quyết về sử dụng hợp lý, cho rằng cách tiếp cận này "phù hợp mục tiêu bản quyền là thúc đẩy sáng tạo và tiến bộ khoa học".