Anthropic a découpé des millions de livres d'occasion pour entraîner Claude – et en a téléchargé plus de 7 millions de versions piratées, selon un juge
Dans une affaire de droit d'auteur très médiatisée concernant l'IA, le juge William Alsup du district nord de la Californie a révélé qu'Anthropic avait scanné de manière destructive des millions de livres protégés par le droit d'auteur pour former son chatbot Claude. La société, soutenue par Amazon et Alphabet, a également téléchargé plus de 7 millions de livres piratés.
Anthropic a dépensé "plusieurs millions de dollars" pour acheter des livres imprimés d'occasion. La société ou ses fournisseurs ont ensuite retiré les reliures, découpé les pages et numérisé les ouvrages pour créer des fichiers numériques. Les livres originaux ont été jetés après numérisation, et les versions numériques stockées dans une "bibliothèque de recherche" interne.
Le juge a également constaté qu'Anthropic avait téléchargé massivement des livres piratés. En 2021, le cofondateur Ben Mann a téléchargé "au moins 5 millions de livres" depuis Library Genesis, sachant qu'ils étaient piratés. Un an plus tard, la société en a téléchargé 2 millions supplémentaires depuis Pirate Library Mirror.
Selon le juge Alsup, Anthropic préférait "voler" des livres pour éviter les "lourdeurs juridiques et pratiques", comme l'a expliqué le PDG Dario Amodei. L'an dernier, trois auteurs ont poursuivi Anthropic en justice, affirmant que la société avait utilisé des versions piratées de leurs livres sans permission ni compensation.
Le juge a estimé que l'utilisation par Anthropic de livres protégés par le droit d'auteur pour former ses modèles d'IA constituait un "usage loyal", car "extrêmement transformateur". Il a comparé ce processus à celui d'un apprenti écrivain s'inspirant d'œuvres existantes pour créer quelque chose de nouveau.
Cependant, Alsup a tracé une ligne claire concernant le piratage. Il a déclaré qu'Anthropic n'avait "aucun droit d'utiliser des copies piratées pour sa bibliothèque centrale". La création d'une bibliothèque permanente à usage général ne justifiait pas le piratage, selon lui.
Cette décision intervient dans un contexte de multiplication des procès contre les géants de l'IA. Alors que les créateurs estiment que l'utilisation de leurs œuvres sans permission viole leurs droits, les entreprises d'IA soutiennent que cette pratique relève de l'usage loyal.
Un porte-parole d'Anthropic s'est déclaré satisfait de la décision concernant l'usage loyal, affirmant que cette approche était "conforme à l'objectif du droit d'auteur qui est de permettre la créativité et de favoriser le progrès scientifique".