Les chatbots IA ont soif de connaissances : les bibliothèques ouvrent leurs trésors littéraires
Les entreprises technologiques se tournent vers un nouveau gisement de données pour alimenter l'intelligence artificielle : les collections historiques des bibliothèques. Près d'un million d'ouvrages, dont certains remontent au XVe siècle et couvrent 254 langues, seront mis à disposition des chercheurs en IA par l'Université Harvard ce jeudi. Ce mouvement intervient alors que l'industrie fait face à des contentieux sur l'utilisation non autorisée d'œuvres protégées.
Microsoft et OpenAI soutiennent financièrement l'Institutional Data Initiative de Harvard, qui collabore avec des bibliothèques mondiales pour numériser leurs collections. « Nous voulons redonner du pouvoir aux institutions culturelles dans cet âge d'or de l'IA », explique Aristana Scourtas du Harvard Law School's Library Innovation Lab.
Le dataset Institutional Books 1.0 contient 394 millions de pages numérisées, dont un manuscrit coréen du XVe siècle sur l'art du jardinage. Principalement du XIXe siècle, ces œuvres couvrent philosophie, droit, agriculture - un patrimoine précieux pour améliorer la fiabilité des IA, selon Greg Leppert, directeur de l'initiative.
Avant ChatGPT, les chercheurs utilisaient massivement des données issues de Wikipédia, Reddit ou même de bibliothèques pirates. Aujourd'hui, les vrais établissements entrent en jeu : la Bodleian Library d'Oxford numérise ses trésors avec l'aide d'OpenAI, tandis que la Bibliothèque publique de Boston insiste pour que ses archives restent accessibles à tous.
Ce mouvement pose cependant des défis éthiques. Kristi Mukk de Harvard met en garde contre les contenus obsolètes ou préjudiciables dans ces collections anciennes. Malgré cela, la Authors Guild salue cette initiative légale qui pourrait « démocratiser le développement de l'IA » tout en préservant l'accès au savoir historique.