"Hume, la startup d'IA vocale émotionnelle, lance son nouveau modèle EVI 3 avec une création vocale personnalisée rapide",
"
Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture de l'IA de premier plan. En savoir plus
\n\nLa startup d'IA basée à New York, Hume, a dévoilé son dernier modèle d'IA conversationnelle, l'Interface Vocale Empathique (EVI) EVI 3 (prononcé \"Evee\" Trois, comme le personnage de Pokémon), visant tout, de l'alimentation des systèmes de support client et du coaching santé à la narration immersive et à la compagnie virtuelle.
\n\nEVI 3 permet aux utilisateurs de créer leurs propres voix en parlant au modèle (c'est voix-à-voix/parole-à-parole), et vise à établir une nouvelle norme pour le naturel, l'expressivité, et \"l'empathie\" selon Hume — c'est-à-dire, comment les utilisateurs perçoivent la compréhension de leurs émotions par le modèle et sa capacité à refléter ou ajuster ses propres réponses, en termes de ton et de choix de mots.
\n\nConçu pour les entreprises, les développeurs et les créateurs, EVI 3 étend les modèles vocaux précédents de Hume en offrant une personnalisation plus sophistiquée, des réponses plus rapides et une meilleure compréhension émotionnelle.
\n\nLes utilisateurs individuels peuvent interagir avec lui aujourd'hui via la démo en direct de Hume sur son site web et son application iOS, mais l'accès des développeurs via l'interface de programmation d'applications (API) propriétaire de Hume serait disponible \"dans les semaines à venir\", comme l'indique un billet de blog de l'entreprise.
\n\nÀ ce moment-là, les développeurs pourront intégrer EVI 3 dans leurs propres systèmes de service client, projets créatifs ou assistants virtuels — moyennant un prix (voir ci-dessous).
\n\nMon propre usage de la démo m'a permis de créer une nouvelle voix synthétique personnalisée en quelques secondes basée sur les qualités que je lui ai décrites — un mélange de chaleur et de confiance, et un ton masculin. Parler avec lui semblait plus naturel et facile qu'avec d'autres modèles d'IA et certainement les voix standard des leaders technologiques traditionnels comme Apple avec Siri et Amazon avec Alexa.
\n\nCe que les développeurs et les entreprises devraient savoir sur EVI 3
\n\nL'EVI 3 de Hume est conçu pour une gamme d'utilisations — du service client et des interactions dans les applications à la création de contenu dans les livres audio et les jeux.
\n\nIl permet aux utilisateurs de spécifier des traits de personnalité précis, des qualités vocales, un ton émotionnel et des sujets de conversation.
\n\nCela signifie qu'il peut produire n'importe quoi, d'un guide chaleureux et empathique à un narrateur excentrique et espiègle — jusqu'à des demandes comme \"une souris grinçante chuchotant urgemment avec un accent français sur son plan pour voler du fromage dans la cuisine\".
\n\nLa force principale d'EVI 3 réside dans sa capacité à intégrer l'intelligence émotionnelle directement dans les expériences basées sur la voix.
\n\nContrairement aux chatbots traditionnels ou aux assistants vocaux qui s'appuient fortement sur des interactions scriptées ou basées sur le texte, EVI 3 s'adapte à la façon dont les gens parlent naturellement — en captant le ton, la prosodie, les pauses et les éclats vocaux pour créer des conversations plus engageantes et humaines.
\n\nCependant, une grande caractéristique que les modèles de Hume manquent actuellement — et qui est offerte par des rivaux open source et propriétaires, comme ElevenLabs — est le clonage vocal, ou la réplication rapide de la voix d'un utilisateur ou d'une autre voix, comme celle d'un PDG d'entreprise.
\n\nPourtant, Hume a indiqué qu'il ajouterait une telle capacité à son modèle de synthèse vocale Octave, car il est noté comme \"à venir\" sur le site web de Hume, et des reportages antérieurs de ma part sur l'entreprise ont révélé qu'il permettrait aux utilisateurs de répliquer des voix à partir d'aussi peu que cinq secondes d'audio.
\n\nHume a déclaré qu'il priorisait les sauvegardes et les considérations éthiques avant de rendre cette fonctionnalité largement disponible. Actuellement, cette capacité de clonage n'est pas disponible dans EVI lui-même, avec Hume mettant l'accent sur la personnalisation vocale flexible à la place.
\n\nLes benchmarks internes montrent que les utilisateurs préfèrent EVI 3 au modèle vocal GPT-4o d'OpenAI
\n\nSelon les propres tests de Hume avec 1 720 utilisateurs, EVI 3 a été préféré au GPT-4o d'OpenAI dans chaque catégorie évaluée: naturel, expressivité, empathie, gestion des interruptions, vitesse de réponse, qualité audio, modulation de l'émotion/du style vocal sur demande, et compréhension de l'émotion sur demande (les fonctionnalités \"sur demande\" sont couvertes dans le \"suivi des instructions\" vu ci-dessous).
\n\nIl a aussi généralement surpassé la famille de modèles Gemini de Google et la nouvelle firme de modèles d'IA open source Sesame de l'ancien co-créateur d'Oculus Brendan Iribe.
\n\nIl se vante également d'une latence plus faible (~300 millisecondes), d'un support multilingue robuste (anglais et espagnol, avec plus de langues à venir), et de voix personnalisées effectivement illimitées. Comme Hume l'écrit sur son site web (voir la capture d'écran immédiatement ci-dessous):
\n\nLes capacités clés incluent:
\n\n- \n
- Génération de prosodie et synthèse vocale expressive avec modulation. \n
- Interruptibilité, permettant un flux conversationnel dynamique. \n
- Personnalisation vocale en conversation, afin que les utilisateurs puissent ajuster le style de parole en temps réel. \n
- Architecture prête pour l'API (à venir), afin que les développeurs puissent intégrer EVI 3 directement dans les applications et services. \n
Tarification et accès développeur
\n\nHume offre une tarification flexible, basée sur l'utilisation, à travers ses API EVI, Octave TTS et Expression Measurement.
\n\nBien que la tarification spécifique de l'API EVI 3 n'ait pas encore été annoncée (marquée comme TBA), le modèle suggère qu'elle sera basée sur l'utilisation, avec des remises entreprises disponibles pour les déploiements importants.
\n\nPour référence, EVI 2 est tarifé à 0,072 $ par minute — 30 % moins cher que son prédécesseur, EVI 1 (0,102 $/minute).
\n\nPour les créateurs et les développeurs travaillant sur des projets de synthèse vocale, les plans Octave TTS de Hume vont d'un niveau gratuit (10 000 caractères de parole, ~10 minutes d'audio) à des plans de niveau entreprise. Voici la répartition:
\n\n- \n
- Gratuit: 10 000 caractères, voix personnalisées illimitées, 0 $/mois \n
- Starter: 30 000 caractères (~30 minutes), 20 projets, 3 $/mois \n
- Créateur: 100 000 caractères (~100 minutes), 1 000 projets, dépassement basé sur l'utilisation (0,20 $/1 000 caractères), 10 $/mois \n
- Pro: 500 000 caractères (~500 minutes), 3 000 projets, 0,15 $/1 000 supplémentaires, 50 $/mois \n
- Scale: 2 000 000 caractères (~2 000 minutes), 10 000 projets, 0,13 $/1 000 supplémentaires, 150 $/mois \n
- Business: 10 000 000 caractères (~10 000 minutes), 20 000 projets, 0,10 $/1 000 supplémentaires, 900 $/mois \n
- Entreprise: Tarification personnalisée et utilisation illimitée \n
Pour les développeurs travaillant sur des interactions vocales en temps réel ou l'analyse émotionnelle, Hume offre également un plan Pay as You Go avec 20 $ de crédits gratuits et aucun engagement initial. Les clients entreprises à haut volume peuvent opter pour un plan Entreprise dédié comprenant des licences de jeu de données, des solutions sur site, des intégrations personnalisées et un support avancé.
\n\nL'histoire des modèles vocaux d'IA émotionnelle de Hume
\n\nFondée en 2021 par Alan Cowen, un ancien chercheur chez Google DeepMind, Hume vise à combler le fossé entre la nuance émotionnelle humaine et l'interaction avec l'IA.
\n\nL'entreprise a formé ses modèles sur un vaste ensemble de données tiré de centaines de milliers de participants à travers le monde — capturant non seulement la parole et le texte, mais aussi les éclats vocaux et les expressions faciales.
\n\n\"L'intelligence émotionnelle inclut la capacité à déduire les intentions et les préférences à partir du comportement. C'est le cœur même de ce que les interfaces d'IA essaient d'atteindre\", a déclaré Cowen à VentureBeat. La mission de Hume est de rendre les interfaces d'IA plus réactives, humaines et finalement plus utiles — que ce soit pour aider un client à naviguer dans une application ou pour narrer une histoire avec juste le bon mélange de drame et d'humour.
\n\nDébut 2024, l'entreprise a lancé EVI 2, qui offrait une latence 40 % plus faible et une tarification réduite de 30 % par rapport à EVI 1, ainsi que de nouvelles fonctionnalités comme la personnalisation vocale dynamique et les invites de style en conversation.
\n\nFévrier 2025 a vu les débuts d'Octave, un moteur de synthèse vocale pour les créateurs de contenu capable d'ajuster les émotions au niveau de la phrase avec des invites textuelles.
\n\nAvec EVI 3 maintenant disponible pour une exploration pratique et un accès complet à l'API juste au coin de la rue, Hume espère permettre aux développeurs et aux créateurs de réimaginer ce qui est possible avec l'IA vocale.
\n\nSi vous voulez impressionner votre patron, VB Daily vous couvre. Nous vous donnons les informations internes sur ce que les entreprises font avec l'IA générative, des changements réglementaires aux déploiements pratiques, afin que vous puissiez partager des insights pour un ROI maximum.
\n\nLisez notre Politique de Confidentialité
\n\nMerci de vous être abonné. Découvrez plus de newsletters VB ici.
\n\nUne erreur est survenue.
",