L'Inde adore Llama, mais flirte avec Mistral et Qwen : La bataille des modèles IA pour les langues indiennes

India Loves Llama, But Flirts with Mistral and Qwen

L'Inde adore Llama, mais flirte avec Mistral et Qwen : La bataille des modèles IA pour les langues indiennes

L'écosystème IA indien est en pleine effervescence avec l'adoption croissante de modèles linguistiques open-source comme Mistral, Qwen et Llama. Sarvam AI, une startup indienne, a récemment lancé Sarvam-M, un modèle hybride de 24 milliards de paramètres basé sur Mistral Small, spécialement optimisé pour les langues indiennes.

Sarvam AI a appliqué des techniques de SFT et RLVR pour affiner Mistral Small, obtenant des améliorations notables : +20% sur les benchmarks de langues indiennes, +21,6% en mathématiques et +17,6% en programmation. Ce choix s'explique par la capacité de Mistral à s'adapter à la diversité linguistique de l'Inde.

Mistral Small, lancé en janvier 2025, rivalise avec des modèles plus gros comme Llama 3.3 70B et Qwen 2.5 32B. Il égale les performances de Llama tout en étant trois fois plus rapide sur le même matériel, offrant une alternative open-source puissante aux modèles propriétaires comme GPT-4o-mini.

La famille Mistral s'est étoffée récemment avec Mistral Medium 3, Devstral pour le codage, Mistral Document AI (OCR) et Mistral Saba spécialisé dans les langues sud-asiatiques. Ce dernier excelle particulièrement en tamoul et en hindi, selon Aarush Sah de Groq Inc.

Pradeep Sanyal, leader IA dans une société de conseil tech, souligne les avantages pratiques de Mistral : "Il se charge plus vite, répond plus rapidement et gère mieux les environnements contraints que Llama ou Falcon. Pour les applications où chaque milliseconde compte, c'est un choix pragmatique."

Cependant, Mistral fait face à une concurrence féroce. Shantipriya Parida de Silo AMD place Mistral-7B parmi les trois meilleurs modèles pour les langues indiennes, aux côtés de Llama et Qwen. Mais Adithya S Kolavi de CognitiveLabs privilégie désormais Llama et Qwen qui couvrent tous leurs besoins.

Pratik Desai de KissanAI est encore plus critique : "Si je dois choisir, les modèles Qwen sont bien supérieurs dans tous les aspects". Alibaba a récemment lancé la famille Qwen3 (de 0,6B à 235B paramètres), dont le modèle phare 235B surpasse les mini-modèles d'OpenAI et égale Gemini 2.5 Pro de Google.

Par ailleurs, DeepSeek R1 gagne du terrain en Inde, hébergé sur des serveurs locaux selon le ministre IT Ashwini Vaishnaw. Ola et Fractal proposent également ce modèle, ce dernier ayant développé Fathom-R1-14B pour seulement 499$ de coût post-formation.

Le paysage IA indien évolue rapidement : la course n'est plus aux plus gros modèles, mais aux solutions les plus intelligentes, rapides et adaptées aux défis spécifiques du pays. Cette dynamique reflète la maturité croissante de l'écosystème tech indien.

Ấn Độ mê Llama nhưng 'tán tỉnh' Mistral và Qwen: Cuộc đua mô hình AI cho ngôn ngữ bản địa

Thị trường AI Ấn Độ đang sôi động với sự cạnh tranh giữa các mô hình ngôn ngữ mã nguồn mở như Mistral, Qwen và Llama. Startup Sarvam AI vừa ra mắt Sarvam-M - mô hình lai 24 tỷ tham số xây dựng trên nền Mistral Small, được tối ưu đặc biệt cho các ngôn ngữ Ấn Độ.

Sarvam AI đã áp dụng kỹ thuật SFT và RLVR để điều chỉnh Mistral Small, đạt được cải tiến ấn tượng: +20% trên bộ kiểm tra ngôn ngữ Ấn Độ, +21,6% về toán học và +17,6% lập trình. Lựa chọn này xuất phát từ khả năng thích ứng của Mistral với sự đa dạng ngôn ngữ tại Ấn Độ.

Ra mắt tháng 1/2025, Mistral Small cạnh tranh trực tiếp với các mô hình lớn hơn như Llama 3.3 70B và Qwen 2.5 32B. Nó ngang bằng hiệu năng với Llama nhưng chạy nhanh gấp 3 lần trên cùng phần cứng, trở thành lựa chọn mã nguồn mở hấp dẫn thay thế GPT-4o-mini.

Họ Mistral gần đây bổ sung thêm Mistral Medium 3, Devstral cho lập trình, Mistral Document AI (OCR) và Mistral Saba chuyên ngôn ngữ Nam Á. Mistral Saba đặc biệt mạnh về tiếng Tamil và Hindi, theo đánh giá của Aarush Sah từ Groq Inc.

Ông Pradeep Sanyal, chuyên gia AI tại một công ty tư vấn công nghệ toàn cầu nhận xét: "Mistral tải nhanh hơn, phản hồi nhanh hơn và xử lý tốt hơn trong môi trường hạn chế tài nguyên so với Llama hay Falcon. Đây là lựa chọn thực tế cho ứng dụng đòi hỏi tối ưu từng mili giây."

Tuy nhiên, Mistral đối mặt cạnh tranh khốc liệt. Bà Shantipriya Parida từ Silo AMD xếp Mistral-7B vào top 3 mô hình tốt nhất cho ngôn ngữ Ấn Độ cùng Llama và Qwen. Trong khi đó, ông Adithya S Kolavi (CognitiveLabs) lại ưu tiên Llama và Qwen do đáp ứng đủ nhu cầu.

Ông Pratik Desai (KissanAI) thẳng thắn: "Nếu phải chọn, Qwen vượt trội hơn hẳn về mọi mặt". Alibaba mới ra mắt dòng Qwen3 (0,6B-235B tham số), trong đó phiên bản 235B vượt các mô hình mini của OpenAI và ngang tầm Gemini 2.5 Pro của Google.

DeepSeek R1 cũng đang gia tăng hiện diện tại Ấn Độ, được lưu trữ trên server địa phương theo Bộ trưởng IT Ashwini Vaishnaw. Ola và Fractal đều triển khai mô hình này, với Fractal phát triển Fathom-R1-14B chỉ tốn 499$ chi phí hậu đào tạo.

Thị trường AI Ấn Độ đang chuyển hướng: không còn chạy đua về quy mô mô hình mà tập trung vào giải pháp thông minh, nhanh chóng và phù hợp với thách thức đặc thù. Điều này phản ánh sự trưởng thành ngày càng cao của hệ sinh thái công nghệ nước này.