ChatGPT a déjà pollué Internet à un point tel qu'il entrave le développement futur de l'IA
L'essor fulgurant de ChatGPT et des modèles génératifs concurrents a inondé Internet de contenus médiocres, compromettant ainsi le développement des futures intelligences artificielles. Ces modèles, qui dépendent fortement des données humaines pour leur apprentissage, sont désormais confrontés à un problème majeur : une part croissante de leur matière première est elle-même générée par des IA. Ce phénomène, qualifié d'« effondrement des modèles » par les experts, ressemble à un jeu de téléphone où chaque transmission dégrade davantage la qualité de l'information.
La situation rappelle celle de l'acier à faible radioactivité, produit avant les premiers essais nucléaires en 1945. Maurice Chiodo, chercheur à l'Université de Cambridge, établit un parallèle saisissant : tout comme les explosions atomiques ont contaminé l'acier moderne, le déferlement de contenus générés par l'IA a pollué le paysage numérique. Les données antérieures à 2022 deviennent ainsi une ressource précieuse, à l'instar des épaves de navires de guerre utilisées pour leur acier « propre ».
Ce scénario soulève des questions cruciales pour l'avenir de l'IA. Les techniques comme le RAG (génération augmentée par récupération), censées actualiser les connaissances des modèles, s'avèrent vulnérables à cette pollution numérique. Pire encore, certaines études montrent que cette contamination entraîne des réponses plus inappropriées de la part des chatbots.
Face à ce défi, la régulation émerge comme une solution potentielle, bien que complexe à mettre en œuvre. Rupprecht Podszun, professeur de droit, souligne la réticence actuelle du secteur à accepter des contraintes, au nom de l'innovation. Pourtant, sans mesures drastiques, les pionniers de l'IA pourraient bénéficier d'un avantage injuste, ayant profité des seules données véritablement « propres » avant la contamination généralisée.