L'Inde adore Llama, mais flirte avec Mistral et Qwen : La bataille des modèles IA pour les langues indiennes
L'écosystème IA indien est en pleine effervescence avec l'adoption croissante de modèles linguistiques open-source comme Mistral, Qwen et Llama. Sarvam AI, une startup indienne, a récemment lancé Sarvam-M, un modèle hybride de 24 milliards de paramètres basé sur Mistral Small, spécialement optimisé pour les langues indiennes.
Sarvam AI a appliqué des techniques de SFT et RLVR pour affiner Mistral Small, obtenant des améliorations notables : +20% sur les benchmarks de langues indiennes, +21,6% en mathématiques et +17,6% en programmation. Ce choix s'explique par la capacité de Mistral à s'adapter à la diversité linguistique de l'Inde.
Mistral Small, lancé en janvier 2025, rivalise avec des modèles plus gros comme Llama 3.3 70B et Qwen 2.5 32B. Il égale les performances de Llama tout en étant trois fois plus rapide sur le même matériel, offrant une alternative open-source puissante aux modèles propriétaires comme GPT-4o-mini.
La famille Mistral s'est étoffée récemment avec Mistral Medium 3, Devstral pour le codage, Mistral Document AI (OCR) et Mistral Saba spécialisé dans les langues sud-asiatiques. Ce dernier excelle particulièrement en tamoul et en hindi, selon Aarush Sah de Groq Inc.
Pradeep Sanyal, leader IA dans une société de conseil tech, souligne les avantages pratiques de Mistral : "Il se charge plus vite, répond plus rapidement et gère mieux les environnements contraints que Llama ou Falcon. Pour les applications où chaque milliseconde compte, c'est un choix pragmatique."
Cependant, Mistral fait face à une concurrence féroce. Shantipriya Parida de Silo AMD place Mistral-7B parmi les trois meilleurs modèles pour les langues indiennes, aux côtés de Llama et Qwen. Mais Adithya S Kolavi de CognitiveLabs privilégie désormais Llama et Qwen qui couvrent tous leurs besoins.
Pratik Desai de KissanAI est encore plus critique : "Si je dois choisir, les modèles Qwen sont bien supérieurs dans tous les aspects". Alibaba a récemment lancé la famille Qwen3 (de 0,6B à 235B paramètres), dont le modèle phare 235B surpasse les mini-modèles d'OpenAI et égale Gemini 2.5 Pro de Google.
Par ailleurs, DeepSeek R1 gagne du terrain en Inde, hébergé sur des serveurs locaux selon le ministre IT Ashwini Vaishnaw. Ola et Fractal proposent également ce modèle, ce dernier ayant développé Fathom-R1-14B pour seulement 499$ de coût post-formation.
Le paysage IA indien évolue rapidement : la course n'est plus aux plus gros modèles, mais aux solutions les plus intelligentes, rapides et adaptées aux défis spécifiques du pays. Cette dynamique reflète la maturité croissante de l'écosystème tech indien.