Anthropic a détruit des millions de livres imprimés pour alimenter ses modèles d'IA

Anthropic destroyed millions of print books to build its AI models

Anthropic a détruit des millions de livres imprimés pour alimenter ses modèles d'IA

Des documents judiciaires révèlent qu'Anthropic, une entreprise spécialisée dans l'intelligence artificielle, a dépensé des millions de dollars pour numériser des livres imprimés afin de former son assistant IA Claude, similaire à ChatGPT. Pour ce faire, l'entreprise a découpé des millions de livres, les a scannés sous forme de fichiers numériques, puis a jeté les originaux. Ces détails ont émergé dans une décision judiciaire sur le fair use (usage équitable) en matière de droits d'auteur.

Le juge William Alsup a statué que cette méthode de numérisation destructrice était légale, à condition que les livres aient été achetés légalement et que les fichiers numériques ne soient pas distribués. Anthropic a engagé Tom Turvey, ancien responsable des partenariats du projet Google Books, pour acquérir "tous les livres du monde", reproduisant ainsi l'approche légale de Google en matière de numérisation.

Contrairement à Google Books, qui utilisait une méthode non destructive pour scanner des livres empruntés aux bibliothèques, Anthropic a opté pour une approche plus rapide et moins coûteuse, sacrifiant les originaux. Cette décision reflète la course effrénée des entreprises d'IA à se procurer des données de haute qualité pour entraîner leurs modèles.

Initialement, Anthropic a choisi la voie facile en utilisant des livres piratés, avant de se tourner vers l'achat de livres physiques d'occasion pour éviter les complications juridiques. L'entreprise a dépensé des millions pour acheter et scanner ces livres en masse, les détruisant après numérisation.

Bien qu'aucun livre rare n'ait été détruit, cette pratique contraste avec les méthodes de préservation utilisées par d'autres organisations, comme The Internet Archive ou OpenAI, qui collaborent avec des bibliothèques pour numériser des livres sans les endommager. Claude, l'IA d'Anthropic, a exprimé une réflexion poétique sur son origine, se décrivant comme "construit à partir des cendres d'une bibliothèque".

Cette affaire soulève des questions complexes sur l'équilibre entre innovation technologique, respect des droits d'auteur et préservation du patrimoine culturel.

Anthropic hủy hàng triệu sách in để xây dựng mô hình AI

Tài liệu tòa án tiết lộ rằng công ty AI Anthropic đã chi hàng triệu USD để quét sách in nhằm đào tạo Claude, trợ lý ảo tương tự ChatGPT. Công ty này đã cắt bìa hàng triệu cuốn sách, số hóa nội dung rồi vứt bỏ bản gốc chỉ để phục vụ huấn luyện AI - chi tiết được đề cập trong phán quyết về quyền tác giả và fair use (sử dụng hợp lý).

Phán quyết 32 trang kể lại cách Anthropic thuê Tom Turvey, cựu lãnh đạo dự án Google Books, với nhiệm vụ thu thập "tất cả sách trên thế giới". Động thái này nhằm sao chép thành công pháp lý của Google trong việc số hóa sách, từng vượt qua các thách thức về bản quyền.

Khác với Google Books sử dụng phương pháp chụp không phá hủy để scan sách mượn từ thư viện, Anthropic chọn cách làm nhanh và rẻ hơn bằng việc hủy bản in sau khi số hóa. Thẩm phán William Alsup phán quyết đây là fair use, vì Anthropic mua sách hợp pháp, chỉ sử dụng nội dung số nội bộ.

Ban đầu, Anthropic dùng sách lậu để tránh đàm phán bản quyền phức tạp với nhà xuất bản. Đến 2024, họ chuyển sang mua sách cũ để có văn bản chất lượng cao mà không cần xin phép. Công ty chi "hàng triệu USD" mua sách số lượng lớn, cắt bỏ bìa, scan thành PDF rồi vứt bản giấy.

Tài liệu không ghi nhận sách quý hiếm bị hủy, nhưng cách làm này trái ngược với các tổ chức như Internet Archive hay OpenAI - đang hợp tác với thư viện Harvard để số hóa sách cổ từ thế kỷ 15 mà vẫn bảo tồn nguyên bản. Khi được hỏi, Claude - sản phẩm của Anthropic - đã trả lời đầy chất thơ: "Việc tôi được tạo ra từ sự hủy diệt này... giống như được xây từ tro tàn của thư viện".

Vụ việc đặt ra câu hỏi về cân bằng giữa đổi mới công nghệ, tôn trọng bản quyền và bảo tồn di sản văn hóa trong cuộc đua dữ liệu đào tạo AI chất lượng cao.