Les chatbots IA ont soif de connaissances : les bibliothèques ouvrent leurs trésors littéraires

AI chatbots need more books to learn from. These libraries are opening their stacks

Les chatbots IA ont soif de connaissances : les bibliothèques ouvrent leurs trésors littéraires

Les entreprises technologiques se tournent vers un nouveau gisement de données pour alimenter l'intelligence artificielle : les collections historiques des bibliothèques. Près d'un million d'ouvrages, dont certains remontent au XVe siècle et couvrent 254 langues, seront mis à disposition des chercheurs en IA par l'Université Harvard ce jeudi. Ce mouvement intervient alors que l'industrie fait face à des contentieux sur l'utilisation non autorisée d'œuvres protégées.

Microsoft et OpenAI soutiennent financièrement l'Institutional Data Initiative de Harvard, qui collabore avec des bibliothèques mondiales pour numériser leurs collections. « Nous voulons redonner du pouvoir aux institutions culturelles dans cet âge d'or de l'IA », explique Aristana Scourtas du Harvard Law School's Library Innovation Lab.

Le dataset Institutional Books 1.0 contient 394 millions de pages numérisées, dont un manuscrit coréen du XVe siècle sur l'art du jardinage. Principalement du XIXe siècle, ces œuvres couvrent philosophie, droit, agriculture - un patrimoine précieux pour améliorer la fiabilité des IA, selon Greg Leppert, directeur de l'initiative.

Avant ChatGPT, les chercheurs utilisaient massivement des données issues de Wikipédia, Reddit ou même de bibliothèques pirates. Aujourd'hui, les vrais établissements entrent en jeu : la Bodleian Library d'Oxford numérise ses trésors avec l'aide d'OpenAI, tandis que la Bibliothèque publique de Boston insiste pour que ses archives restent accessibles à tous.

Ce mouvement pose cependant des défis éthiques. Kristi Mukk de Harvard met en garde contre les contenus obsolètes ou préjudiciables dans ces collections anciennes. Malgré cela, la Authors Guild salue cette initiative légale qui pourrait « démocratiser le développement de l'IA » tout en préservant l'accès au savoir historique.

Chatbot AI cần 'ăn' thêm sách vở: Các thư viện mở kho tàng tri thức

Các chatbot AI đang được bổ sung nguồn 'dinh dưỡng' mới từ kho tàng sách cổ trong thư viện. Gần một triệu đầu sách từ thế kỷ 15, bằng 254 ngôn ngữ, sẽ được Đại học Harvard cung cấp cho các nhà nghiên cứu AI vào thứ Năm này. Động thái này diễn ra giữa làn sóng kiện tụng về việc sử dụng trái phép tác phẩm có bản quyền để đào tạo AI.

Microsoft và OpenAI đang tài trợ cho Sáng kiến Dữ liệu Thể chế của Harvard, hợp tác với các thư viện toàn cầu để số hóa tư liệu. "Chúng tôi muốn trao lại quyền lực cho các tổ chức văn hóa trong kỷ nguyên AI", bà Aristana Scourtas từ Phòng Sáng tạo Thư viện Harvard cho biết.

Bộ dữ liệu Institutional Books 1.0 chứa 394 triệu trang scan, bao gồm bản thảo Hàn Quốc thế kỷ 15 về nghệ thuật làm vườn. Chủ yếu từ thế kỷ 19, các tác phẩm này phủ triết học, luật, nông nghiệp - nguồn tư liệu quý để cải thiện độ tin cậy của AI, theo ông Greg Leppert, giám đốc điều hành sáng kiến.

Trước kỷ nguyên ChatGPT, giới nghiên cứu thường sử dụng dữ liệu từ Wikipedia, Reddit hoặc thư viện 'chợ đen'. Giờ đây, các thư viện thực thụ vào cuộc: Thư viện Bodleian của Oxford đang số hóa kho báu với hỗ trợ từ OpenAI, trong khi Thư viện Công cộng Boston nhấn mạnh tài nguyên phải mở cho cộng đồng.

Tuy nhiên, việc này đặt ra thách thức đạo đức. Bà Kristi Mukk từ Harvard cảnh báo về nội dung lỗi thời hoặc độc hại trong các tư liệu cổ. Dù vậy, Hiệp hội Tác giả Mỹ hoan nghênh sáng kiến hợp pháp này, coi đó là cách 'dân chủ hóa phát triển AI' đồng thời bảo tồn tri thức lịch sử.