Pourquoi les systèmes RAG en entreprise échouent : L'étude de Google propose une solution révolutionnaire avec le 'contexte suffisant'
Une étude récente menée par des chercheurs de Google introduit une nouvelle approche baptisée 'contexte suffisant', visant à optimiser les systèmes de Génération Augmentée par Récupération (RAG) dans les modèles de langage à grande échelle (LLM). Cette méthode permet de déterminer si un LLM dispose d'assez d'informations pour répondre précisément à une requête, un enjeu crucial pour les applications d'entreprise où fiabilité et exactitude sont primordiales.
Les systèmes RAG, bien que devenus essentiels pour créer des applications IA plus factuelles, présentent des défis persistants. Ils peuvent fournir des réponses erronées avec assurance, se laisser distraire par des informations non pertinentes, ou échouer à extraire des réponses de longs passages de texte. Les chercheurs soulignent dans leur article que l'idéal serait que le LLM fournisse une réponse correcte uniquement si le contexte contient suffisamment d'informations, sinon qu'il s'abstienne de répondre.
Le concept de 'contexte suffisant' classe les entrées en deux catégories : celles où le contexte permet une réponse définitive, et celles où il est insuffisant. Cette classification, réalisée sans nécessiter de réponse préétablie, est cruciale pour les applications réelles. Les chercheurs ont développé un 'auto-évaluateur' basé sur un LLM pour automatiser ce processus, constatant que Gemini 1.5 Pro excelle dans cette tâche.
L'analyse des comportements des LLM avec RAG a révélé des insights clés. Même avec un contexte suffisant, les modèles ont tendance à halluciner plutôt qu'à s'abstenir. En revanche, un contexte insuffisant entraîne des taux d'abstention plus élevés, mais aussi parfois des hallucinations accrues. Fait intéressant, les modèles peuvent parfois fournir des réponses correctes malgré un contexte insuffisant, grâce à leur connaissance préalable ou à une capacité à combler les lacunes.
Pour réduire les hallucinations, les chercheurs ont conçu un cadre de 'génération sélective', utilisant un modèle d'intervention pour décider si le LLM principal doit répondre ou s'abstenir. Cette approche améliore significativement la précision des réponses. Par exemple, dans le service client, cela permet au modèle de reconnaître quand une information est obsolète et de conseiller de consulter un agent.
Enfin, l'étude propose des conseils pratiques pour les équipes souhaitant appliquer ces découvertes. Il s'agit notamment de collecter des données représentatives, d'utiliser un auto-évaluateur pour classer les contextes, et d'analyser séparément les performances sur des contextes suffisants et insuffisants. Bien que l'auto-évaluateur soit précis, son coût computationnel peut être géré en l'utilisant sur de petits ensembles de test pour des diagnostics.