Les scientifiques collectionnaient l'acier pré-nucléaire ; aujourd'hui, nous archivons le contenu pré-IA

Scientists once hoarded pre-nuclear steel; now we’re hoarding pre-AI content

Les scientifiques collectionnaient l'acier pré-nucléaire ; aujourd'hui, nous archivons le contenu pré-IA

John Graham-Cumming, ancien dirigeant de Cloudflare, a récemment annoncé le lancement d'un site web, lowbackgroundsteel.ai, qui traite le contenu humain créé avant l'ère de l'IA comme une précieuse commodité – une capsule temporelle de l'expression créative organique d'une époque où les machines n'avaient pas encore rejoint la conversation. "L'idée est de pointer vers des sources de textes, d'images et de vidéos créées avant l'explosion du contenu généré par l'IA", a écrit Graham-Cumming sur son blog la semaine dernière. La raison ? Préserver ce qui rendait les médias non-IA uniquement humains.

Le nom de l'archive s'inspire d'un phénomène scientifique de l'ère de la Guerre froide. Après le début des essais d'armes nucléaires en 1945, la radiation atmosphérique a contaminé la production mondiale d'acier. Pendant des décennies, les scientifiques avaient besoin d'acier sans radiation pour des instruments sensibles et devaient récupérer de l'acier provenant d'épaves de navires d'avant-guerre. Cet acier était appelé "acier à faible bruit de fond". Graham-Cumming voit un parallèle avec le web actuel, où le contenu généré par l'IA se mêle de plus en plus au contenu humain, le contaminant.

Avec l'avènement des modèles d'IA générative comme ChatGPT et Stable Diffusion en 2022, il est devenu bien plus difficile pour les chercheurs de s'assurer que les médias trouvés sur Internet ont été créés par des humains sans outils d'IA. ChatGPT, en particulier, a déclenché une avalanche de textes générés par l'IA à travers le web, forçant au moins un projet de recherche à fermer complètement. Ce projet était wordfreq, une bibliothèque Python créée par la chercheuse Robyn Speer qui analysait la fréquence des mots dans plus de 40 langues en examinant des millions de sources, dont Wikipédia, des sous-titres de films, des articles de presse et des réseaux sociaux.

En septembre 2024, le projet a annoncé qu'il ne serait plus mis à jour car "le web est désormais rempli de contenu généré par des modèles de langage, écrit par personne pour ne rien communiquer". Certains chercheurs s'inquiètent également que les modèles d'IA s'entraînent sur leurs propres sorties, ce qui pourrait entraîner une dégradation de la qualité – un phénomène parfois appelé "effondrement du modèle". Mais des recherches récentes suggèrent que cette crainte pourrait être exagérée dans certaines conditions.

Graham-Cumming n'est pas étranger aux efforts de préservation technologique. Ingénieur logiciel et écrivain britannique, il est surtout connu pour avoir créé POPFile, un logiciel open source de filtrage de spam, et pour avoir obtenu des excuses du gouvernement britannique pour la persécution du cryptologue Alan Turing. Son site pré-IA, bien que créé en mars 2023, est resté inconnu jusqu'à présent. Il répertorie plusieurs archives majeures de contenu pré-IA, comme un dump de Wikipédia d'août 2022, les livres du domaine public de Project Gutenberg, et l'Arctic Code Vault de GitHub.

Le site accepte également des soumissions d'autres sources de contenu pré-IA via sa page Tumblr. Graham-Cumming souligne que le projet vise à documenter la créativité humaine d'avant l'ère de l'IA, et non à s'opposer à l'IA elle-même. Tout comme l'acier à faible bruit de fond est devenu inutile après la fin des essais nucléaires, le contenu pré-IA pourrait suivre une trajectoire similaire. Néanmoins, il semble raisonnable de préserver ces sources de créativité humaine, car elles pourraient s'avérer utiles à l'avenir.

En 2020, Graham-Cumming avait proposé la création d'une "arche cryptographique" – une archive horodatée de médias pré-IA que les historiens pourraient authentifier. Aujourd'hui, lowbackgroundsteel.ai sert de catalogue modeste de l'expression humaine d'une époque qui pourrait un jour être considérée comme la dernière ère pré-IA. Dans un monde où la distinction entre production humaine et machine devient de plus en plus floue, ces archives pourraient s'avérer précieuses pour comprendre l'évolution de la communication humaine avant l'arrivée de l'IA.

Các nhà khoa học từng tích trữ thép tiền hạt nhân, giờ chúng ta lưu trữ nội dung tiền AI

John Graham-Cumming, cựu giám đốc điều hành của Cloudflare, gần đây đã công bố ra mắt trang web lowbackgroundsteel.ai – nơi coi các nội dung do con người tạo ra trước thời đại AI như một kho báu quý giá, một chiếc hộp thời gian lưu giữ sự sáng tạo thuần túy của nhân loại trước khi máy móc tham gia vào cuộc đối thoại. "Ý tưởng là chỉ ra các nguồn văn bản, hình ảnh và video được tạo ra trước làn sóng nội dung AI", Graham-Cumming viết trên blog của mình. Mục đích? Bảo tồn những gì khiến truyền thông phi-AI mang đậm tính nhân văn.

Tên gọi kho lưu trữ bắt nguồn từ hiện tượng khoa học thời Chiến tranh Lạnh. Sau khi các vụ thử vũ khí hạt nhân bắt đầu năm 1945, bức xạ khí quyển đã làm nhiễm xạ toàn bộ sản xuất thép toàn cầu. Trong nhiều thập kỷ, giới khoa học cần thép không nhiễm xạ cho các thiết bị nhạy cảm buộc phải tận dụng thép từ xác tàu đắm thời tiền chiến. Họ gọi đây là "thép nền phóng xạ thấp". Graham-Cumming nhận thấy sự tương đồng với mạng internet ngày nay, nơi nội dung AI ngày càng pha trộn và làm ô nhiễm sáng tạo của con người.

Sự xuất hiện của các mô hình AI như ChatGPT và Stable Diffusion năm 2022 khiến các nhà nghiên cứu khó xác định nội dung trên mạng có thực sự do con người tạo ra hay không. Đặc biệt, ChatGPT đã tạo ra lượng văn bản AI khổng lồ, buộc ít nhất một dự án nghiên cứu phải đóng cửa. Đó là wordfreq – thư viện Python do nhà nghiên cứu Robyn Speer phát triển để phân tích tần suất từ ngữ trong 40+ ngôn ngữ từ hàng triệu nguồn như Wikipedia, phụ đề phim, báo chí và mạng xã hội.

Tháng 9/2024, dự án tuyên bố ngừng cập nhật vì "mạng internet ngập tràn nội dung vô nghĩa do AI tạo ra, không ai viết và chẳng truyền tải điều gì". Một số nhà nghiên cứu lo ngại việc AI tự huấn luyện trên chính đầu ra của nó sẽ làm suy giảm chất lượng – hiện tượng gọi là "sụp đổ mô hình". Tuy nhiên, nghiên cứu gần đây cho thấy nỗi lo này có thể được kiểm soát nếu dữ liệu tổng hợp tích lũy song song với dữ liệu thật.

Graham-Cumming không xa lạ với các nỗ lực bảo tồn công nghệ. Ông là kỹ sư phần mềm người Anh, nổi tiếng với phần mềm lọc thư rác POPFile và vận động thành công để chính phủ Anh xin lỗi vì đã đối xử tệ với nhà giải mã Alan Turing. Trang web tiền AI của ông thực ra đã được tạo từ tháng 3/2023 nhưng đến nay mới công bố. Trang web liệt kê các kho lưu trữ nội dung tiền AI quan trọng như bản dump Wikipedia tháng 8/2022, sách thuộc phạm vi công cộng của Project Gutenberg, kho ảnh Thư viện Quốc hội Mỹ và Arctic Code Vault của GitHub.

Trang web cũng chấp nhận đóng góp các nguồn nội dung tiền AI khác qua trang Tumblr. Graham-Cumming nhấn mạnh mục tiêu là lưu giữ sáng tạo nhân loại trước kỷ nguyên AI, không phải phản đối AI. Giống như thép nền phóng xạ thấp dần trở nên không cần thiết, số phận của nội dung tiền AI vẫn là câu hỏi mở. Dù vậy, việc bảo vệ các nguồn sáng tạo nhân văn hiện tại là hợp lý vì chúng có thể hữu ích theo cách mà ít người nhận ra.

Năm 2020, Graham-Cumming từng đề xuất tạo "kho lưu trữ mật mã" – nơi lưu giữ nội dung tiền AI được đánh dấu thời gian để các nhà sử học tương lai xác thực. Hiện tại, lowbackgroundsteel.ai đóng vai trò như bảo tàng khảo cổ số đánh dấu ranh giới giữa văn hóa thuần nhân loại và văn hóa lai AI. Trong thời đại phân biệt giữa sản phẩm người và máy ngày càng khó khăn, những kho lưu trữ này có thể trở nên vô giá để hiểu về tiến trình giao tiếp nhân loại trước khi AI xuất hiện.