Anthropic a détruit des millions de livres imprimés pour alimenter ses modèles d'IA
Des documents judiciaires révèlent qu'Anthropic, une entreprise spécialisée dans l'intelligence artificielle, a dépensé des millions de dollars pour numériser des livres imprimés afin de former son assistant IA Claude, similaire à ChatGPT. Pour ce faire, l'entreprise a découpé des millions de livres, les a scannés sous forme de fichiers numériques, puis a jeté les originaux. Ces détails ont émergé dans une décision judiciaire sur le fair use (usage équitable) en matière de droits d'auteur.
Le juge William Alsup a statué que cette méthode de numérisation destructrice était légale, à condition que les livres aient été achetés légalement et que les fichiers numériques ne soient pas distribués. Anthropic a engagé Tom Turvey, ancien responsable des partenariats du projet Google Books, pour acquérir "tous les livres du monde", reproduisant ainsi l'approche légale de Google en matière de numérisation.
Contrairement à Google Books, qui utilisait une méthode non destructive pour scanner des livres empruntés aux bibliothèques, Anthropic a opté pour une approche plus rapide et moins coûteuse, sacrifiant les originaux. Cette décision reflète la course effrénée des entreprises d'IA à se procurer des données de haute qualité pour entraîner leurs modèles.
Initialement, Anthropic a choisi la voie facile en utilisant des livres piratés, avant de se tourner vers l'achat de livres physiques d'occasion pour éviter les complications juridiques. L'entreprise a dépensé des millions pour acheter et scanner ces livres en masse, les détruisant après numérisation.
Bien qu'aucun livre rare n'ait été détruit, cette pratique contraste avec les méthodes de préservation utilisées par d'autres organisations, comme The Internet Archive ou OpenAI, qui collaborent avec des bibliothèques pour numériser des livres sans les endommager. Claude, l'IA d'Anthropic, a exprimé une réflexion poétique sur son origine, se décrivant comme "construit à partir des cendres d'une bibliothèque".
Cette affaire soulève des questions complexes sur l'équilibre entre innovation technologique, respect des droits d'auteur et préservation du patrimoine culturel.