"Hume, la startup d'IA vocale émotionnelle, lance son nouveau modèle EVI 3 avec une création vocale personnalisée rapide",

Emotive voice AI startup Hume launches new EVI 3 model with rapid custom voice creation

"Hume, la startup d'IA vocale émotionnelle, lance son nouveau modèle EVI 3 avec une création vocale personnalisée rapide",

"

Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture de l'IA de premier plan. En savoir plus

\n\n

La startup d'IA basée à New York, Hume, a dévoilé son dernier modèle d'IA conversationnelle, l'Interface Vocale Empathique (EVI) EVI 3 (prononcé \"Evee\" Trois, comme le personnage de Pokémon), visant tout, de l'alimentation des systèmes de support client et du coaching santé à la narration immersive et à la compagnie virtuelle.

\n\n

EVI 3 permet aux utilisateurs de créer leurs propres voix en parlant au modèle (c'est voix-à-voix/parole-à-parole), et vise à établir une nouvelle norme pour le naturel, l'expressivité, et \"l'empathie\" selon Hume — c'est-à-dire, comment les utilisateurs perçoivent la compréhension de leurs émotions par le modèle et sa capacité à refléter ou ajuster ses propres réponses, en termes de ton et de choix de mots.

\n\n

Conçu pour les entreprises, les développeurs et les créateurs, EVI 3 étend les modèles vocaux précédents de Hume en offrant une personnalisation plus sophistiquée, des réponses plus rapides et une meilleure compréhension émotionnelle.

\n\n

Les utilisateurs individuels peuvent interagir avec lui aujourd'hui via la démo en direct de Hume sur son site web et son application iOS, mais l'accès des développeurs via l'interface de programmation d'applications (API) propriétaire de Hume serait disponible \"dans les semaines à venir\", comme l'indique un billet de blog de l'entreprise.

\n\n

À ce moment-là, les développeurs pourront intégrer EVI 3 dans leurs propres systèmes de service client, projets créatifs ou assistants virtuels — moyennant un prix (voir ci-dessous).

\n\n

Mon propre usage de la démo m'a permis de créer une nouvelle voix synthétique personnalisée en quelques secondes basée sur les qualités que je lui ai décrites — un mélange de chaleur et de confiance, et un ton masculin. Parler avec lui semblait plus naturel et facile qu'avec d'autres modèles d'IA et certainement les voix standard des leaders technologiques traditionnels comme Apple avec Siri et Amazon avec Alexa.

\n\n

Ce que les développeurs et les entreprises devraient savoir sur EVI 3

\n\n

L'EVI 3 de Hume est conçu pour une gamme d'utilisations — du service client et des interactions dans les applications à la création de contenu dans les livres audio et les jeux.

\n\n

Il permet aux utilisateurs de spécifier des traits de personnalité précis, des qualités vocales, un ton émotionnel et des sujets de conversation.

\n\n

Cela signifie qu'il peut produire n'importe quoi, d'un guide chaleureux et empathique à un narrateur excentrique et espiègle — jusqu'à des demandes comme \"une souris grinçante chuchotant urgemment avec un accent français sur son plan pour voler du fromage dans la cuisine\".

\n\n

La force principale d'EVI 3 réside dans sa capacité à intégrer l'intelligence émotionnelle directement dans les expériences basées sur la voix.

\n\n

Contrairement aux chatbots traditionnels ou aux assistants vocaux qui s'appuient fortement sur des interactions scriptées ou basées sur le texte, EVI 3 s'adapte à la façon dont les gens parlent naturellement — en captant le ton, la prosodie, les pauses et les éclats vocaux pour créer des conversations plus engageantes et humaines.

\n\n

Cependant, une grande caractéristique que les modèles de Hume manquent actuellement — et qui est offerte par des rivaux open source et propriétaires, comme ElevenLabs — est le clonage vocal, ou la réplication rapide de la voix d'un utilisateur ou d'une autre voix, comme celle d'un PDG d'entreprise.

\n\n

Pourtant, Hume a indiqué qu'il ajouterait une telle capacité à son modèle de synthèse vocale Octave, car il est noté comme \"à venir\" sur le site web de Hume, et des reportages antérieurs de ma part sur l'entreprise ont révélé qu'il permettrait aux utilisateurs de répliquer des voix à partir d'aussi peu que cinq secondes d'audio.

\n\n

Hume a déclaré qu'il priorisait les sauvegardes et les considérations éthiques avant de rendre cette fonctionnalité largement disponible. Actuellement, cette capacité de clonage n'est pas disponible dans EVI lui-même, avec Hume mettant l'accent sur la personnalisation vocale flexible à la place.

\n\n

Les benchmarks internes montrent que les utilisateurs préfèrent EVI 3 au modèle vocal GPT-4o d'OpenAI

\n\n

Selon les propres tests de Hume avec 1 720 utilisateurs, EVI 3 a été préféré au GPT-4o d'OpenAI dans chaque catégorie évaluée: naturel, expressivité, empathie, gestion des interruptions, vitesse de réponse, qualité audio, modulation de l'émotion/du style vocal sur demande, et compréhension de l'émotion sur demande (les fonctionnalités \"sur demande\" sont couvertes dans le \"suivi des instructions\" vu ci-dessous).

\n\n

Il a aussi généralement surpassé la famille de modèles Gemini de Google et la nouvelle firme de modèles d'IA open source Sesame de l'ancien co-créateur d'Oculus Brendan Iribe.

\n\n

Il se vante également d'une latence plus faible (~300 millisecondes), d'un support multilingue robuste (anglais et espagnol, avec plus de langues à venir), et de voix personnalisées effectivement illimitées. Comme Hume l'écrit sur son site web (voir la capture d'écran immédiatement ci-dessous):

\n\n

Les capacités clés incluent:

\n\n
    \n
  • Génération de prosodie et synthèse vocale expressive avec modulation.
  • \n
  • Interruptibilité, permettant un flux conversationnel dynamique.
  • \n
  • Personnalisation vocale en conversation, afin que les utilisateurs puissent ajuster le style de parole en temps réel.
  • \n
  • Architecture prête pour l'API (à venir), afin que les développeurs puissent intégrer EVI 3 directement dans les applications et services.
  • \n
\n\n
  • Génération de prosodie et synthèse vocale expressive avec modulation.
  • \n
  • Interruptibilité, permettant un flux conversationnel dynamique.
  • \n
  • Personnalisation vocale en conversation, afin que les utilisateurs puissent ajuster le style de parole en temps réel.
  • \n
  • Architecture prête pour l'API (à venir), afin que les développeurs puissent intégrer EVI 3 directement dans les applications et services.
  • \n

    Tarification et accès développeur

    \n\n

    Hume offre une tarification flexible, basée sur l'utilisation, à travers ses API EVI, Octave TTS et Expression Measurement.

    \n\n

    Bien que la tarification spécifique de l'API EVI 3 n'ait pas encore été annoncée (marquée comme TBA), le modèle suggère qu'elle sera basée sur l'utilisation, avec des remises entreprises disponibles pour les déploiements importants.

    \n\n

    Pour référence, EVI 2 est tarifé à 0,072 $ par minute — 30 % moins cher que son prédécesseur, EVI 1 (0,102 $/minute).

    \n\n

    Pour les créateurs et les développeurs travaillant sur des projets de synthèse vocale, les plans Octave TTS de Hume vont d'un niveau gratuit (10 000 caractères de parole, ~10 minutes d'audio) à des plans de niveau entreprise. Voici la répartition:

    \n\n
      \n
    • Gratuit: 10 000 caractères, voix personnalisées illimitées, 0 $/mois
    • \n
    • Starter: 30 000 caractères (~30 minutes), 20 projets, 3 $/mois
    • \n
    • Créateur: 100 000 caractères (~100 minutes), 1 000 projets, dépassement basé sur l'utilisation (0,20 $/1 000 caractères), 10 $/mois
    • \n
    • Pro: 500 000 caractères (~500 minutes), 3 000 projets, 0,15 $/1 000 supplémentaires, 50 $/mois
    • \n
    • Scale: 2 000 000 caractères (~2 000 minutes), 10 000 projets, 0,13 $/1 000 supplémentaires, 150 $/mois
    • \n
    • Business: 10 000 000 caractères (~10 000 minutes), 20 000 projets, 0,10 $/1 000 supplémentaires, 900 $/mois
    • \n
    • Entreprise: Tarification personnalisée et utilisation illimitée
    • \n
    \n\n
  • Gratuit: 10 000 caractères, voix personnalisées illimitées, 0 $/mois
  • \n
  • Starter: 30 000 caractères (~30 minutes), 20 projets, 3 $/mois
  • \n
  • Créateur: 100 000 caractères (~100 minutes), 1 000 projets, dépassement basé sur l'utilisation (0,20 $/1 000 caractères), 10 $/mois
  • \n
  • Pro: 500 000 caractères (~500 minutes), 3 000 projets, 0,15 $/1 000 supplémentaires, 50 $/mois
  • \n
  • Scale: 2 000 000 caractères (~2 000 minutes), 10 000 projets, 0,13 $/1 000 supplémentaires, 150 $/mois
  • \n
  • Business: 10 000 000 caractères (~10 000 minutes), 20 000 projets, 0,10 $/1 000 supplémentaires, 900 $/mois
  • \n
  • Entreprise: Tarification personnalisée et utilisation illimitée
  • \n

    Pour les développeurs travaillant sur des interactions vocales en temps réel ou l'analyse émotionnelle, Hume offre également un plan Pay as You Go avec 20 $ de crédits gratuits et aucun engagement initial. Les clients entreprises à haut volume peuvent opter pour un plan Entreprise dédié comprenant des licences de jeu de données, des solutions sur site, des intégrations personnalisées et un support avancé.

    \n\n

    L'histoire des modèles vocaux d'IA émotionnelle de Hume

    \n\n

    Fondée en 2021 par Alan Cowen, un ancien chercheur chez Google DeepMind, Hume vise à combler le fossé entre la nuance émotionnelle humaine et l'interaction avec l'IA.

    \n\n

    L'entreprise a formé ses modèles sur un vaste ensemble de données tiré de centaines de milliers de participants à travers le monde — capturant non seulement la parole et le texte, mais aussi les éclats vocaux et les expressions faciales.

    \n\n

    \"L'intelligence émotionnelle inclut la capacité à déduire les intentions et les préférences à partir du comportement. C'est le cœur même de ce que les interfaces d'IA essaient d'atteindre\", a déclaré Cowen à VentureBeat. La mission de Hume est de rendre les interfaces d'IA plus réactives, humaines et finalement plus utiles — que ce soit pour aider un client à naviguer dans une application ou pour narrer une histoire avec juste le bon mélange de drame et d'humour.

    \n\n

    Début 2024, l'entreprise a lancé EVI 2, qui offrait une latence 40 % plus faible et une tarification réduite de 30 % par rapport à EVI 1, ainsi que de nouvelles fonctionnalités comme la personnalisation vocale dynamique et les invites de style en conversation.

    \n\n

    Février 2025 a vu les débuts d'Octave, un moteur de synthèse vocale pour les créateurs de contenu capable d'ajuster les émotions au niveau de la phrase avec des invites textuelles.

    \n\n

    Avec EVI 3 maintenant disponible pour une exploration pratique et un accès complet à l'API juste au coin de la rue, Hume espère permettre aux développeurs et aux créateurs de réimaginer ce qui est possible avec l'IA vocale.

    \n\n

    Si vous voulez impressionner votre patron, VB Daily vous couvre. Nous vous donnons les informations internes sur ce que les entreprises font avec l'IA générative, des changements réglementaires aux déploiements pratiques, afin que vous puissiez partager des insights pour un ROI maximum.

    \n\n

    Lisez notre Politique de Confidentialité

    \n\n

    Merci de vous être abonné. Découvrez plus de newsletters VB ici.

    \n\n

    Une erreur est survenue.

    ",

    "Startup AI giọng nói cảm xúc Hume ra mắt mô hình EVI 3 mới với khả năng tạo giọng nói tùy chỉnh nhanh chóng",

    "

    Tham gia bản tin hàng ngày và hàng tuần của chúng tôi để cập nhật những tin tức mới nhất và nội dung độc quyền về phạm vi bao phủ AI hàng đầu ngành. Tìm hiểu thêm

    \n\n

    Công ty khởi nghiệp AI có trụ sở tại New York, Hume, đã công bố mô hình AI giao tiếp mới nhất của mình, Giao diện Giọng nói Thấu cảm (EVI) EVI 3 (phát âm là \"Evee\" Ba, giống như nhân vật Pokémon), nhắm đến mọi thứ từ việc cung cấp năng lượng cho các hệ thống hỗ trợ khách hàng và huấn luyện sức khỏe đến kể chuyện nhập vai và bạn đồng hành ảo.

    \n\n

    EVI 3 cho phép người dùng tạo giọng nói của riêng mình bằng cách nói chuyện với mô hình (đó là giọng nói-đến-giọng nói/lời nói-đến-lời nói), và nhằm mục đích thiết lập một tiêu chuẩn mới về sự tự nhiên, biểu cảm, và \"sự thấu cảm\" theo Hume — đó là, cách người dùng nhận thức sự hiểu biết về cảm xúc của họ của mô hình và khả năng phản ánh hoặc điều chỉnh phản hồi của chính nó, về mặt giọng điệu và lựa chọn từ ngữ.

    \n\n

    Được thiết kế cho doanh nghiệp, nhà phát triển và nhà sáng tạo, EVI 3 mở rộng trên các mô hình giọng nói trước đây của Hume bằng cách cung cấp tùy chỉnh tinh vi hơn, phản hồi nhanh hơn và hiểu biết cảm xúc nâng cao.

    \n\n

    Người dùng cá nhân có thể tương tác với nó ngay hôm nay thông qua bản demo trực tiếp của Hume trên trang web và ứng dụng iOS của mình, nhưng quyền truy cập của nhà phát triển thông qua giao diện lập trình ứng dụng (API) độc quyền của Hume được cho là sẽ có sẵn \"trong vài tuần tới\", như một bài đăng trên blog của công ty nêu.

    \n\n

    Vào thời điểm đó, các nhà phát triển sẽ có thể nhúng EVI 3 vào hệ thống dịch vụ khách hàng, dự án sáng tạo hoặc trợ lý ảo của riêng họ — với một mức giá (xem