Les scientifiques collectionnaient l'acier pré-nucléaire ; aujourd'hui, nous archivons le contenu pré-IA
John Graham-Cumming, ancien dirigeant de Cloudflare, a récemment annoncé le lancement d'un site web, lowbackgroundsteel.ai, qui traite le contenu humain créé avant l'ère de l'IA comme une précieuse commodité – une capsule temporelle de l'expression créative organique d'une époque où les machines n'avaient pas encore rejoint la conversation. "L'idée est de pointer vers des sources de textes, d'images et de vidéos créées avant l'explosion du contenu généré par l'IA", a écrit Graham-Cumming sur son blog la semaine dernière. La raison ? Préserver ce qui rendait les médias non-IA uniquement humains.
Le nom de l'archive s'inspire d'un phénomène scientifique de l'ère de la Guerre froide. Après le début des essais d'armes nucléaires en 1945, la radiation atmosphérique a contaminé la production mondiale d'acier. Pendant des décennies, les scientifiques avaient besoin d'acier sans radiation pour des instruments sensibles et devaient récupérer de l'acier provenant d'épaves de navires d'avant-guerre. Cet acier était appelé "acier à faible bruit de fond". Graham-Cumming voit un parallèle avec le web actuel, où le contenu généré par l'IA se mêle de plus en plus au contenu humain, le contaminant.
Avec l'avènement des modèles d'IA générative comme ChatGPT et Stable Diffusion en 2022, il est devenu bien plus difficile pour les chercheurs de s'assurer que les médias trouvés sur Internet ont été créés par des humains sans outils d'IA. ChatGPT, en particulier, a déclenché une avalanche de textes générés par l'IA à travers le web, forçant au moins un projet de recherche à fermer complètement. Ce projet était wordfreq, une bibliothèque Python créée par la chercheuse Robyn Speer qui analysait la fréquence des mots dans plus de 40 langues en examinant des millions de sources, dont Wikipédia, des sous-titres de films, des articles de presse et des réseaux sociaux.
En septembre 2024, le projet a annoncé qu'il ne serait plus mis à jour car "le web est désormais rempli de contenu généré par des modèles de langage, écrit par personne pour ne rien communiquer". Certains chercheurs s'inquiètent également que les modèles d'IA s'entraînent sur leurs propres sorties, ce qui pourrait entraîner une dégradation de la qualité – un phénomène parfois appelé "effondrement du modèle". Mais des recherches récentes suggèrent que cette crainte pourrait être exagérée dans certaines conditions.
Graham-Cumming n'est pas étranger aux efforts de préservation technologique. Ingénieur logiciel et écrivain britannique, il est surtout connu pour avoir créé POPFile, un logiciel open source de filtrage de spam, et pour avoir obtenu des excuses du gouvernement britannique pour la persécution du cryptologue Alan Turing. Son site pré-IA, bien que créé en mars 2023, est resté inconnu jusqu'à présent. Il répertorie plusieurs archives majeures de contenu pré-IA, comme un dump de Wikipédia d'août 2022, les livres du domaine public de Project Gutenberg, et l'Arctic Code Vault de GitHub.
Le site accepte également des soumissions d'autres sources de contenu pré-IA via sa page Tumblr. Graham-Cumming souligne que le projet vise à documenter la créativité humaine d'avant l'ère de l'IA, et non à s'opposer à l'IA elle-même. Tout comme l'acier à faible bruit de fond est devenu inutile après la fin des essais nucléaires, le contenu pré-IA pourrait suivre une trajectoire similaire. Néanmoins, il semble raisonnable de préserver ces sources de créativité humaine, car elles pourraient s'avérer utiles à l'avenir.
En 2020, Graham-Cumming avait proposé la création d'une "arche cryptographique" – une archive horodatée de médias pré-IA que les historiens pourraient authentifier. Aujourd'hui, lowbackgroundsteel.ai sert de catalogue modeste de l'expression humaine d'une époque qui pourrait un jour être considérée comme la dernière ère pré-IA. Dans un monde où la distinction entre production humaine et machine devient de plus en plus floue, ces archives pourraient s'avérer précieuses pour comprendre l'évolution de la communication humaine avant l'arrivée de l'IA.