Pourquoi les systèmes RAG en entreprise échouent : L'étude de Google propose une solution révolutionnaire avec le 'contexte suffisant'

Why enterprise RAG systems fail: Google study introduces ‘sufficient context’ solution

Pourquoi les systèmes RAG en entreprise échouent : L'étude de Google propose une solution révolutionnaire avec le 'contexte suffisant'

Une étude récente menée par des chercheurs de Google introduit une nouvelle approche baptisée 'contexte suffisant', visant à optimiser les systèmes de Génération Augmentée par Récupération (RAG) dans les modèles de langage à grande échelle (LLM). Cette méthode permet de déterminer si un LLM dispose d'assez d'informations pour répondre précisément à une requête, un enjeu crucial pour les applications d'entreprise où fiabilité et exactitude sont primordiales.

Les systèmes RAG, bien que devenus essentiels pour créer des applications IA plus factuelles, présentent des défis persistants. Ils peuvent fournir des réponses erronées avec assurance, se laisser distraire par des informations non pertinentes, ou échouer à extraire des réponses de longs passages de texte. Les chercheurs soulignent dans leur article que l'idéal serait que le LLM fournisse une réponse correcte uniquement si le contexte contient suffisamment d'informations, sinon qu'il s'abstienne de répondre.

Le concept de 'contexte suffisant' classe les entrées en deux catégories : celles où le contexte permet une réponse définitive, et celles où il est insuffisant. Cette classification, réalisée sans nécessiter de réponse préétablie, est cruciale pour les applications réelles. Les chercheurs ont développé un 'auto-évaluateur' basé sur un LLM pour automatiser ce processus, constatant que Gemini 1.5 Pro excelle dans cette tâche.

L'analyse des comportements des LLM avec RAG a révélé des insights clés. Même avec un contexte suffisant, les modèles ont tendance à halluciner plutôt qu'à s'abstenir. En revanche, un contexte insuffisant entraîne des taux d'abstention plus élevés, mais aussi parfois des hallucinations accrues. Fait intéressant, les modèles peuvent parfois fournir des réponses correctes malgré un contexte insuffisant, grâce à leur connaissance préalable ou à une capacité à combler les lacunes.

Pour réduire les hallucinations, les chercheurs ont conçu un cadre de 'génération sélective', utilisant un modèle d'intervention pour décider si le LLM principal doit répondre ou s'abstenir. Cette approche améliore significativement la précision des réponses. Par exemple, dans le service client, cela permet au modèle de reconnaître quand une information est obsolète et de conseiller de consulter un agent.

Enfin, l'étude propose des conseils pratiques pour les équipes souhaitant appliquer ces découvertes. Il s'agit notamment de collecter des données représentatives, d'utiliser un auto-évaluateur pour classer les contextes, et d'analyser séparément les performances sur des contextes suffisants et insuffisants. Bien que l'auto-évaluateur soit précis, son coût computationnel peut être géré en l'utilisant sur de petits ensembles de test pour des diagnostics.

Vì sao hệ thống RAG doanh nghiệp thất bại: Nghiên cứu Google đề xuất giải pháp đột phá với 'ngữ cảnh đủ'

Một nghiên cứu mới từ các nhà khoa học Google giới thiệu khái niệm 'ngữ cảnh đủ', một góc nhìn đột phá để cải thiện hệ thống Tạo lập Tăng cường Truy xuất (RAG) trong các mô hình ngôn ngữ lớn (LLM). Phương pháp này giúp xác định liệu LLM có đủ thông tin để trả lời chính xác câu hỏi hay không - yếu tố sống còn cho các ứng dụng doanh nghiệp đòi hỏi độ tin cậy cao.

Dù RAG đã trở thành nền tảng cho các ứng dụng AI chính xác, chúng vẫn tồn tại nhiều hạn chế. Hệ thống có thể đưa ra câu trả lời sai một cách tự tin, bị phân tâm bởi thông tin không liên quan, hoặc không trích xuất được đáp án từ văn bản dài. Nhóm nghiên cứu nhấn mạnh: 'Lý tưởng nhất là LLM chỉ trả lời khi ngữ cảnh cung cấp đủ thông tin, nếu không nên từ chối trả lời hoặc yêu cầu bổ sung'.

Khái niệm 'ngữ cảnh đủ' phân loại đầu vào thành hai trường hợp: ngữ cảnh chứa đủ thông tin cho câu trả lời chắc chắn, và ngữ cảnh thiếu thông tin cần thiết. Việc phân loại này không cần đáp án mẫu, rất quan trọng cho ứng dụng thực tế. Các nhà khoa học đã phát triển bộ 'tự đánh giá' dựa trên LLM để tự động hóa quá trình này, phát hiện Gemini 1.5 Pro cho kết quả phân loại chính xác nhất.

Phân tích hành vi LLM với RAG tiết lộ nhiều phát hiện quan trọng. Dù ngữ cảnh đủ, mô hình vẫn có xu hướng 'ảo giác' thay vì từ chối trả lời. Ngược lại, với ngữ cảnh thiếu, tỷ lệ từ chối tăng nhưng một số mô hình lại ảo giác nhiều hơn. Đáng chú ý, đôi khi mô hình vẫn trả lời đúng dù ngữ cảnh thiếu, nhờ vào kiến thức sẵn có hoặc khả năng suy luận từ manh mối.

Để giảm ảo giác, nhóm nghiên cứu phát triển khung 'tạo lập chọn lọc', sử dụng mô hình can thiệp nhỏ để quyết định LLM chính nên trả lời hay không. Giải pháp này cải thiện độ chính xác đáng kể. Ví dụ trong hỗ trợ khách hàng, mô hình có thể nhận biết thông tin khuyến mãi đã lỗi thời và đề nghị liên hệ nhân viên.

Nghiên cứu cũng đưa ra hướng dẫn thực tiễn cho doanh nghiệp muốn áp dụng RAG. Đầu tiên cần thu thập bộ dữ liệu truy vấn-ngữ cảnh tiêu biểu, sau đó dùng bộ tự đánh giá để phân loại. Nếu tỷ lệ ngữ cảnh đủ dưới 80-90%, cần cải thiện hệ thống truy xuất. Việc phân tách đánh giá hiệu năng theo hai loại ngữ cảnh giúp phát hiện các vấn đề chi tiết. Dù bộ tự đánh giá LLM có độ chính xác cao, doanh nghiệp có thể giảm chi phí bằng cách chỉ chạy trên tập dữ liệu thử nghiệm nhỏ.