Les robots d'IA pillent les bibliothèques, archives et musées : une menace pour le patrimoine culturel en ligne

AI Scraping Bots Are Breaking Open Libraries, Archives, and Museums

Les robots d'IA pillent les bibliothèques, archives et musées : une menace pour le patrimoine culturel en ligne

Une nouvelle étude révèle que les robots d'IA, utilisés pour collecter des données d'entraînement, surchargent les serveurs des bibliothèques, archives, musées et galeries, rendant parfois leurs collections inaccessibles. Publiée aujourd'hui, cette enquête est la première à quantifier ce phénomène qui, dans les pires cas, prive le public de ressources précieuses. Michael Weinberg, auteur du rapport, souligne l'inquiétude grandissante des institutions face à cette menace pour la durabilité de leurs ressources en ligne.

Le rapport, intitulé "Les robots d'IA menacent-ils le patrimoine culturel en ligne ?", a été réalisé par le GLAM-E Lab, une initiative conjointe de l'Université d'Exeter et de NYU Law. Basé sur un sondage auprès de 43 institutions en Europe, Amérique du Nord et Océanie, il révèle que 39 d'entre elles ont constaté une augmentation récente du trafic, attribuée majoritairement aux robots d'IA.

Les comportements de ces robots sont comparés à des attaques DDoS, submergeant les serveurs et obligeant les administrateurs à mettre en place des contre-mesures urgentes. Un répondant a décrit des incidents quotidiens de trois minutes, très perturbants mais non fatals. L'impact varie : certaines collections sont entièrement hors ligne, tandis que d'autres voient seulement certaines sections affectées.

32 institutions ont pris des mesures actives contre ces robots, mais 7 n'ont encore rien fait. Le problème est aggravé par le non-respect du protocole robots.txt par les robots d'IA, rompant ainsi les normes établies du web. Par exemple, l'Université de Caroline du Nord a dû déployer un pare-feu basé sur l'IA après que son catalogue en ligne ait été submergé de trafic.

De nombreuses institutions hésitent à imposer des identifications ou CAPTCHA, craignant de décourager l'accès légitime. Michael Weinberg souligne le manque de ressources humaines pour maintenir ces collections en ligne, même dans les grandes institutions. Le GLAM-E Lab aide les petites et moyennes institutions à mettre leurs ressources en ligne, mais la menace des robots complique leurs missions.

Bot AI đang 'đánh sập' thư viện, kho lưu trữ và bảo tàng: Mối đe dọa với di sản văn hóa số

Một khảo sát mới công bố hôm nay cho thấy các bot AI thu thập dữ liệu huấn luyện đang làm quá tải server của các thư viện, kho lưu trữ, bảo tàng và phòng trưng bày, khiến nhiều bộ sưu tập không thể truy cập. Đây là nghiên cứu đầu tiên đo lường vấn đề này, mà trong trường hợp xấu nhất có thể khiến các tài nguyên công cộng giá trị không sử dụng được vì server bị bot AI tấn công. Tác giả báo cáo Michael Weinberg nhấn mạnh mối lo ngại về tính bền vững của các nguồn tài nguyên mở.

Báo cáo "Có phải bot AI đang đánh sập di sản văn hóa?" do GLAM-E Lab thực hiện - một sáng kiến chung giữa Đại học Exeter và NYU Law. Khảo sát 43 tổ chức ở châu Âu, Bắc Mỹ và châu Đại Dương cho thấy 39 đơn vị ghi nhận lưu lượng truy cập tăng đột biến, với 27 trường hợp xác nhận do bot AI, 7 trường hợp nghi ngờ có liên quan.

Hiện tượng này được so sánh với các cuộc tấn công DDoS truyền thống, khiến server ngừng hoạt động và buộc quản trị viên phải áp dụng các biện pháp đối phó khẩn cấp. Một đơn vị báo cáo các sự cố kéo dài 3 phút mỗi ngày, gây gián đoạn nghiêm trọng. Tác động không đồng đều: có bộ sưu tập bị 'sập' hoàn toàn, trong khi số khác chỉ ảnh hưởng một phần.

32 tổ chức đã áp dụng biện pháp chống bot, 7 đơn vị chưa hành động. Vấn đề trầm trọng hơn khi bot AI phớt lờ giao thức robots.txt - chuẩn mực vốn có của internet. Đại học Bắc Carolina (UNC) phải triển khai tường lửa AI sau khi catalog trực tuyến bị quá tải vào ngày 2/12/2024.

Nhiều tổ chức ngại yêu cầu đăng nhập hay CAPTCHA vì sợ giảm trải nghiệm người dùng. Weinberg chỉ ra thực tế đáng báo động: các bộ sưu tập trực tuyến thường chỉ được vận hành bởi nhóm nhỏ nhân sự, thậm chí chỉ một người kiêm nhiệm. GLAM-E Lab đang hỗ trợ các tổ chức vừa và nhỏ số hóa tài nguyên, nhưng mối đe dọa từ bot AI khiến nhiều đơn vị e ngại.