Un juge statue : entraîner l'IA sur des livres d'auteurs est légal, mais les pirater ne l'est pas
Un juge fédéral en Californie a statué lundi qu'Anthropic avait probablement violé la loi sur le droit d'auteur en piratant des livres d'auteurs pour créer un immense ensemble de données et une bibliothèque « permanente », mais que l'entraînement de son IA sur ces livres sans l'autorisation des auteurs constitue une utilisation équitable transformative selon la loi sur le droit d'auteur. Cette décision complexe est l'une des premières du genre dans une série de procès très médiatisés intentés par des auteurs et des artistes contre des entreprises d'IA, et elle est globalement très défavorable aux auteurs, artistes, écrivains et développeurs web.
Dans cette affaire, les auteurs Andrea Bartz, Charles Graeber et Kirk Wallace Johnson ont poursuivi Anthropic, créateur de la famille de modèles linguistiques Claude, l'une des nombreuses poursuites judiciaires contre les géants de l'IA. Les auteurs ont intenté une action contre Anthropic car l'entreprise a extrait des copies complètes de leurs livres pour entraîner ses modèles d'IA à partir d'un ensemble de données désormais tristement célèbre appelé Books3, ainsi que des sites de piratage LibGen et Pirate Library Mirror (PiLiMi).
Le procès affirme également qu'Anthropic a acheté des exemplaires physiques d'occasion de livres et les a numérisés pour entraîner l'IA. « Dès le début, Anthropic avait de nombreuses sources où elle aurait pu acheter des livres, mais elle a préféré les voler pour éviter les 'traverses juridiques/pratiques/commerciales', comme l'a dit le cofondateur et PDG Dario Amodei. Ainsi, en janvier ou février 2021, un autre cofondateur d'Anthropic, Ben Mann, a téléchargé Books3, une bibliothèque en ligne de 196 640 livres dont il savait qu'ils avaient été compilés à partir de copies non autorisées de livres protégés par le droit d'auteur — c'est-à-dire piratés », a écrit William Alsup, juge fédéral du district nord de la Californie, dans sa décision de lundi.
« Les prochaines acquisitions piratées d'Anthropic ont consisté à télécharger des copies redistribuées d'autres bibliothèques pirates. En juin 2021, Mann a téléchargé de cette manière au moins cinq millions d'exemplaires de livres de Library Genesis, ou LibGen, dont il savait qu'ils avaient été piratés. Et, en juillet 2022, Anthropic a également téléchargé au moins deux millions d'exemplaires de livres de Pirate Library Mirror, ou PiLiMi, dont Anthropic savait qu'ils avaient été piratés. »