Partager

cover art for Zonos, l’IA ultime pour cloner une voix ?

Choses à Savoir TECH

Zonos, l’IA ultime pour cloner une voix ?

Un simple extrait de voix de 5 à 30 secondes, et voilà qu'une intelligence artificielle est capable d'imiter une voix avec une précision troublante. C’est la prouesse réalisée par Zonos, le tout dernier modèle open-source de la société Zyphra. Disponible en version bêta, ce modèle de synthèse vocale illustre autant l’évolution fulgurante de l’IA que les défis éthiques qu’elle soulève. Zonos repose sur deux modèles avancés, chacun intégrant 1,6 milliard de paramètres. L’un utilise une architecture transformers, tandis que l’autre combine cette approche avec Mamba (SSM), optimisant ainsi la latence et la consommation de mémoire. Open-source sous licence Apache 2.0, il est librement accessible sur GitHub et Hugging Face, une aubaine pour les développeurs et chercheurs.


L’IA a été entraînée sur un impressionnant corpus de 200 000 heures d’audio multilingue (anglais, français, espagnol, chinois, japonais, allemand). Elle peut ainsi générer des voix synthétiques ultra-réalistes, modulables selon plusieurs paramètres : débit, hauteur, émotion (joie, colère, tristesse). Le tout en haute fidélité (44 kHz) et avec une latence réduite entre 200 et 300 millisecondes sur une carte NVIDIA RTX 6000 Ada. Facile à installer, Zonos permet, via une interface intuitive, d’importer un échantillon vocal et de générer un fichier audio personnalisé en quelques secondes. Une accessibilité qui pose immédiatement la question des usages malveillants. Lors de tests réalisés par The Register, des enregistrements produits avec Zonos ont trompé des proches pendant quelques secondes, avant que de légères anomalies (rythme mécanique, intonations artificielles) ne révèlent la supercherie. Mais ces imperfections pourraient rapidement disparaître avec l’amélioration des algorithmes.


Les risques sont bien réels : arnaques vocales, usurpations d’identité, faux messages politiques, deepfakes. En 2024, plusieurs escroqueries sophistiquées utilisant des imitations de voix ont déjà été signalées en Europe. Pour autant, cette technologie ne présente pas que des dangers. Zonos pourrait être utilisé pour restaurer la voix de personnes ayant perdu l’usage de leurs cordes vocales, améliorer les livres audio multilingues, ou encore faciliter la création de contenus accessibles. Zyphra affirme vouloir encourager l’innovation dans ces domaines, mais son approche open-source facilite une diffusion rapide et incontrôlée. Alors que des entreprises comme ElevenLabs ou Apple explorent des usages encadrés dans un cadre médical ou commercial, Zonos échappe à toute régulation.

More episodes

View all episodes

  • Amazon devient opérateur satellite en France ?

    02:13|
    C’est désormais acté : Amazon peut déployer sa constellation de satellites Kuiper en France. L’ARCEP, le régulateur des télécoms, a validé l’autorisation d’usage des fréquences pendant dix ans. Une décision stratégique, qui ouvre la voie à une nouvelle offre de connectivité par satellite pour le grand public – en concurrence directe avec Starlink d’Elon Musk.Mais cette avancée n’a pas fait l’unanimité. Eutelsat et Viasat, acteurs déjà bien implantés dans le secteur spatial européen, ont vivement protesté. Ils redoutent des interférences avec leurs propres satellites, notamment géostationnaires. Viasat affirme même que certaines limites d’émissions seraient dépassées à Lyon. Quant à Eutelsat, il reproche à Amazon de ne pas avoir pris contact pour protéger ses stations au sol. Il faut dire que le projet Kuiper est ambitieux. Plus de 3 000 satellites en orbite basse, et un investissement total de 10,3 milliards d’euros. Un quart de cette somme, soit environ 2,6 milliards, devrait bénéficier directement au secteur spatial européen, notamment via les 18 lancements confiés à Arianespace. Un argument de poids pour ceux qui voient dans ce projet un levier industriel autant qu’une réponse aux zones blanches.L’ARCEP, elle, assume son choix : accorder l’autorisation sous conditions strictes. Si des brouillages sont constatés, Amazon devra cesser immédiatement l’utilisation des fréquences concernées. Une décision “sans garantie de non-brouillage”, mais encadrée par des obligations fortes. En clair, le régulateur préfère miser sur l’innovation et la surveillance plutôt que sur le principe de précaution. Une manière aussi de stimuler la concurrence dans un secteur encore largement dominé par Starlink. Du côté des collectivités, l’AVICCA se dit favorable à cette diversité technologique, tout en rappelant que la fibre optique doit rester la norme. Elle alerte aussi sur les questions de souveraineté et de cybersécurité, alors que des opérateurs non-européens gagnent du terrain. Pour les usagers, une chose est sûre : une alternative à Starlink arrive. Reste à voir si le ciel français pourra accueillir tous ces satellites sans interférences... ni turbulences.
  • Vheer, générateur de vidéo IA gratuit et sans inscription ?

    02:18|
    C’est une bataille de titans qui agite en ce moment le petit monde de l’intelligence artificielle générative vidéo. Aux avant-postes, Google, avec son impressionnant VEO 3, impose sa puissance… mais à un prix. Comptez jusqu’à 200 euros par mois pour profiter pleinement des performances de cette IA surdouée. Et Google n’est pas seul sur le champ de bataille : OpenAI avec Sora, Runway Gen-3, Kling, SeaDance... Tous ces géants ont un point commun : ils font payer – cher – un service qui reste extrêmement gourmand en puissance de calcul. Face à cette avalanche d’outils premium, certaines plateformes tentent de proposer des alternatives plus accessibles. Hailuo AI, par exemple, réduit les coûts mais impose des filigranes ou des temps d’attente parfois longs. Et puis, il y a Vheer. Un nom encore peu connu… mais qui pourrait bien faire parler de lui.Vheer, c’est l’outsider qui bouscule les codes. Accessible en ligne, sans inscription, l’outil propose de générer des vidéos courtes… gratuitement. Pas de watermark, pas de compte à créer, et une interface simple qui accepte les formats classiques : carré, paysage, portrait. Le tout, en seulement quelques minutes de traitement. Autant dire que ça intrigue. Alors bien sûr, il y a des limites. D’abord, Vheer ne transforme pas encore un texte en vidéo directement. Il faut lui fournir une image. Mais l’astuce, c’est que l’appli propose aussi une fonction de génération d’image via prompt. Autrement dit, vous tapez une idée, il crée une image… que vous transformez ensuite en clip.La durée, elle, est limitée à cinq secondes – un recul récent face à l’afflux de demandes. Mais en rusant un peu, on peut enchaîner les clips à partir de l’image finale du précédent, et les assembler dans un logiciel comme CapCut ou Premiere. Autre conseil : téléchargez vite vos créations, car sans compte, rien n’est conservé. Et ce n’est pas tout. Suppression de fond, OCR, édition d’images… Vheer regorge de fonctions IA, toutes gratuites pour le moment. Une chose est sûre : si le modèle évolue, profitez-en tant qu’il est encore ouvert à tous.
  • Quelle est l’application la plus téléchargée de 2025 ?

    02:11|
    C’est une première qui pourrait bien marquer un tournant dans l’histoire du numérique. En juin, ChatGPT devient l’application la plus téléchargée au monde, avec 50 millions d’installations sur smartphones. Oui, vous avez bien entendu : l’intelligence artificielle d’OpenAI dépasse TikTok, Instagram, WhatsApp et Facebook, tous relégués derrière. TikTok, pourtant habituée à la première marche, arrive deuxième avec 37 millions de téléchargements, juste devant Instagram et ses 36 millions. Un bouleversement discret mais révélateur. Car si les géants des réseaux sociaux semblaient indétrônables, ChatGPT s’impose comme l’outsider devenu incontournable. Et ce, malgré les efforts d’Apple et Google pour promouvoir leurs propres IA — Apple Intelligence et Gemini — intégrées directement dans iOS et Android. Visiblement, les utilisateurs font toujours confiance à OpenAI pour répondre à leurs besoins. Ce succès intervient dans un contexte où les téléchargements globaux reculent : le Top 10 mondial cumule 290 millions d’installations, soit une baisse de 8 % par rapport au mois de mai. Mais ChatGPT, lui, grimpe. Facebook et WhatsApp complètent le Top 5 avec respectivement 30 et 28 millions de téléchargements. Netflix, quant à lui, sort du classement. Côté shopping, ce n’est ni Amazon ni Vinted qui brillent, mais Temu, l’appli e-commerce chinoise qui se hisse à la 7e place. Et derrière cette envolée des téléchargements, une autre évolution se profile en coulisse : l’infrastructure technique de ChatGPT elle-même est en pleine transformation. OpenAI a signé avec Google Cloud. Jusqu’ici hébergé exclusivement sur Microsoft Azure, ChatGPT s’ouvre à de nouvelles infrastructures pour répondre à la demande croissante en puissance de calcul. Désormais, Google Cloud servira les utilisateurs aux États-Unis, au Royaume-Uni, au Japon, en Norvège et aux Pays-Bas. En France, en revanche, seul Microsoft reste à la manœuvre.
  • Bientôt un modèle d'IA ouvert signé Open AI ?

    02:25|
    C’est un petit séisme dans le monde de l’intelligence artificielle. OpenAI, jusqu’ici jalousement attachée à ses modèles propriétaires, s’apprête à publier un modèle de langage en accès ouvert, dont les paramètres internes seront téléchargeables librement. Une première depuis la création de l’entreprise en 2015. Fini le passage obligé par les API maison ou les serveurs de Microsoft. Ce nouveau modèle pourra être utilisé directement, hébergé localement par les entreprises, les institutions ou même les chercheurs. Et selon les informations de The Verge, il serait comparable à o3 mini, déjà réputé pour ses performances en raisonnement. De quoi faire trembler l'écosystème actuel.Ce changement de cap marque un tournant stratégique. Depuis 2019, OpenAI conservait ses modèles sous clé, notamment en raison de son partenariat exclusif avec Microsoft, scellé en 2023. La firme de Redmond bénéficiait d’un accès privilégié aux versions les plus avancées des modèles d’OpenAI, en échange d’un partage des revenus sur Azure et ChatGPT. Mais avec ce modèle ouvert, la donne change. Hugging Face, Oracle ou d’autres fournisseurs cloud pourront bientôt proposer le modèle à leurs clients, sans passer par Azure. Cette ouverture soulève évidemment des questions sur la licence qui accompagnera la sortie. Les paramètres seront accessibles, oui — mais qu’en est-il du code source ou des données d’entraînement ? Sans eux, certains observateurs estiment que l’ouverture risque de n’être que partielle.Côté calendrier, l’annonce pourrait survenir dès la semaine prochaine, selon plusieurs sources proches du dossier. OpenAI aurait déjà présenté le modèle à des chercheurs et développeurs pour collecter des retours. Cette décision s’inscrit dans un mouvement plus large. Meta avec Llama, Mistral AI en Europe, et maintenant OpenAI : tous s’alignent sur une demande croissante d’IA open-weight, en particulier dans les secteurs publics et réglementés. La Commission européenne a d’ailleurs lancé en juin un appel à projets pour tester ces IA dans ses administrations. Un modèle ouvert, c’est moins de dépendance, plus de personnalisation, et surtout, une course à l’innovation relancée. Alors que le marché mondial de l’IA générative a dépassé les 45 milliards de dollars cette année, OpenAI vient peut-être de redistribuer les cartes.
  • Le quantique rendra vos appareils 1000 fois plus rapide ?

    02:14|
    Et si la matière qui fait battre le cœur de nos ordinateurs et de nos smartphones vivait ses dernières heures ? Depuis des décennies, le silicium règne sans partage sur le monde numérique. C’est lui qui a permis l’essor fulgurant des technologies de l’information. Mais aujourd’hui, ce matériau atteint ses limites. Les transistors gravés à l’échelle du nanomètre chauffent, ralentissent, et deviennent de plus en plus instables. Le modèle touche à saturation.Alors, vers quoi se tourner ? Une étude américaine publiée fin juin dans Nature Physics nous propose un début de réponse. L’équipe du professeur Gregory Fiete, à l’université Northeastern de Boston, a réussi ce que beaucoup pensaient impossible : contrôler, à température ambiante, le comportement d’un matériau quantique, le 1T-TaS₂, pour le faire passer à volonté d’un état conducteur à un état isolant. Autrement dit, ce cristal peut devenir un interrupteur à lui tout seul, sans recourir à des milliards de transistors. Mieux : il peut basculer d’un état à l’autre en un éclair, grâce à une impulsion lumineuse ou thermique. Un changement de phase ultra-rapide, réversible… et potentiellement exploitable pour créer des circuits mille fois plus rapides que nos actuelles puces au silicium.Jusqu’ici, ce genre de prouesse n’était possible qu’à des températures cryogéniques — proches du zéro absolu. Pas franchement pratique pour nos smartphones. Mais les chercheurs américains ont trouvé un moyen de stabiliser le matériau à température ambiante, via une technique appelée thermal quenching : un protocole précis de chauffage et de refroidissement qui « fige » le matériau dans l’état désiré. Alors, est-ce la fin du silicium ? Pas si vite. Ce n’est encore qu’un exploit de laboratoire, aucun composant à base de 1T-TaS₂ n’est prêt à équiper nos appareils. Mais c’est une preuve que l’électronique post-silicium est envisageable. Et peut-être que, comme dans les années 1950 pour le silicium, tout commencera dans un labo, avec un cristal et un peu de lumière.
  • Une faille de sécurité menace 2 milliards de eSIM ?

    02:27|
    Les cartes SIM, vous les connaissez : ces minuscules puces qui connectent nos téléphones au réseau mobile. Aujourd’hui, elles sont devenues... invisibles. L’eSIM, ou SIM embarquée, est intégrée directement dans nos smartphones, montres connectées ou objets IoT. Pratique, flexible, elle est partout. Et pourtant, elle n’est pas invulnérable.Une faille critique vient d’être dévoilée dans les cartes eUICC — ce sont les composants électroniques qui font tourner les eSIM — du fabricant britannique Kigen. La vulnérabilité, mise au jour par le cabinet polonais Security Explorations, expose des millions d’appareils à des attaques de très haut niveau : clonage de profils, espionnage de communications, voire installation de portes dérobées impossibles à détecter. En cause : un mécanisme de test intégré à la spécification GSMA TS.48 (version 6.0 et antérieures). Ce « Generic Test Profile » sert normalement à valider la connectivité mobile avant la mise en service d’un appareil. Mais s’il reste actif en production, il devient une véritable porte d’entrée pour les pirates. Un attaquant peut alors injecter du code malveillant dans la carte, sans qu’aucune signature ne soit vérifiée. Résultat : profil cloné, surveillance discrète, et même géolocalisation furtive, le tout hors du radar des opérateurs.Les risques sont majeurs : usurpation d’identité numérique via l’extraction de certificats, compromission d’appels ou de messages sécurisés, et intrusion dans des objets critiques comme des routeurs 5G, des dispositifs médicaux ou des véhicules connectés — certaines Peugeot ou Citroën récentes seraient concernées. La GSMA a réagi : une nouvelle version de la norme (TS.48 v7.0) désactive par défaut les profils de test. Kigen, de son côté, a reconnu la faille et récompensé les chercheurs à hauteur de 30 000 dollars. Mais selon eux, le problème de fond reste entier : la machine virtuelle Java Card utilisée sur ces cartes n’est pas assez sécurisée. D’autres attaques, via accès physique ou à distance, pourraient survenir. Un conseil : si votre appareil utilise une eSIM, appliquez les mises à jour de sécurité sans tarder. Car cette faille n’est pas un gadget de laboratoire — elle peut toucher n’importe qui, au quotidien.
  • Apple utilise des modèles chinois pour ses IAs ?

    02:40|
    Pendant que les projecteurs sont braqués sur Apple Intelligence, la nouvelle ambition IA de Cupertino mêlant traitement local et cloud, la firme à la pomme avance sur un autre front, plus discret mais tout aussi stratégique : celui de la recherche ouverte et du rapprochement avec l’écosystème chinois.Dernière annonce en date, la publication sur la plateforme Hugging Face d’un modèle de langage baptisé DiffuCode-7B-cpGRPO, un outil conçu pour… programmer. Mais attention, ici, Apple sort des sentiers battus. Contrairement à la majorité des modèles génératifs classiques qui écrivent du code ligne par ligne, ce modèle mise sur la diffusion, une technique inspirée des générateurs d’images comme Stable Diffusion. Concrètement, le modèle part d’un squelette de code flou ou bruité, qu’il affine en plusieurs étapes, en tenant compte de l’ensemble du projet. Résultat : une génération potentiellement plus rapide et surtout plus cohérente sur des blocs entiers.Mais le plus intéressant, ce n’est pas la méthode. C’est l’origine. Car Apple ne part pas de zéro. Le modèle repose sur Qwen2.5-7B, un modèle open-source développé par le géant chinois Alibaba. Les ingénieurs d’Apple ont d’abord repris une version adaptée à la programmation, avant d’y greffer leur propre décodeur basé sur la diffusion et de le réentraîner à leur sauce. Une démarche bien loin de l’image d’Apple tout-puissant construisant chaque brique en interne. Ce choix d’Alibaba n’est pas anodin. Pour déployer Apple Intelligence en Chine, la firme américaine doit se plier aux réglementations locales, qui imposent l’utilisation de modèles approuvés par Pékin. Résultat : un partenariat stratégique avec Alibaba, qui adapte ses modèles pour tourner efficacement sur les puces Apple Silicon via le framework MLX.Et ce n’est pas tout : Apple a aussi regardé du côté de DeepSeek, une startup chinoise en pleine ascension. Si aucun accord n’a été signé, Tim Cook a salué la qualité de leurs modèles, preuve d’une veille technologique active et d’une reconnaissance de la montée en puissance de la Chine dans le domaine de l’IA. Apple, longtemps réputée pour son écosystème fermé, change de méthode. En s’appuyant sur des fondations open-source venues d’ailleurs, la firme montre qu’à l’heure de l’IA, même les géants ne peuvent plus avancer seuls.
  • Youtube en guerre contre les contenus générés par IA ?

    02:17|
    À partir du 15 juillet 2025, les règles du jeu changent pour les créateurs sur YouTube. La plateforme de vidéos en ligne met à jour les conditions de son YouTube Partner Program, le fameux YPP, qui permet aux vidéastes de générer des revenus grâce à leurs contenus. L’objectif ? Renforcer la lutte contre les vidéos jugées « inauthentiques », dans un contexte où les outils d’intelligence artificielle bousculent les frontières de la création.Derrière ce terme, YouTube vise principalement deux pratiques : les vidéos produites en masse et les contenus hautement répétitifs. Finies les chaînes qui inondent la plateforme avec des dizaines de vidéos par jour, construites sur des scripts automatisés, des voix de synthèse et des images génériques. L’heure est venue pour la plateforme de réaffirmer l’exigence d’originalité : publier, oui, mais avec un minimum de valeur ajoutée. Cela ne signifie pas pour autant la fin de l’IA sur YouTube. Le recours aux outils d’intelligence artificielle n’est pas interdit, mais il doit servir une création humaine. L’usage de l’IA pour monter une vidéo, générer des sous-titres ou aider à la recherche reste parfaitement autorisé. Ce qui est visé, ce sont les chaînes qui se reposent uniquement sur des processus automatisés, sans intervention humaine. Une précision qui devrait rassurer notamment les VTubers, ces créateurs qui animent des avatars numériques, mais fournissent eux-mêmes la voix et les idées.Pourquoi ce virage ? Parce que la prolifération de contenus de faible qualité – surnommés « slop » par la communauté anglophone – nuit à l’expérience des utilisateurs… et à la confiance des annonceurs, qui financent en grande partie la plateforme. En nettoyant les contenus peu engageants, YouTube veut garantir un environnement plus sain et plus attractif pour les marques comme pour les vidéastes de qualité. YouTube l’assure : cette mise à jour reste « mineure » et ne remet pas en cause les formats légitimes comme les vidéos de réaction ou les critiques de films, à condition qu’elles apportent un regard personnel et un vrai travail de transformation. L’enjeu, désormais, c’est la valeur ajoutée. Les compilations brutes seront démonétisées, mais les analyses critiques, elles, resteront bien en place.
  • Comet, le navigateur IA de Perplexity à 200$ par mois ?

    02:04|
    C’était jusqu’ici un outil confidentiel, réservé à quelques utilisateurs triés sur le volet. Mais Comet, le navigateur développé par Perplexity, s’ouvre désormais à un public plus large… à condition d’y mettre le prix. Il est accessible aux abonnés de l’offre Perplexity Max, lancée la semaine dernière à 200 dollars par mois.Sous le capot, rien de bien exotique : Comet repose sur le moteur Chromium, comme Chrome, Brave ou Vivaldi. Il est donc compatible avec toutes les extensions de l’écosystème Google, et intègre nativement un bloqueur de publicité. Là où il se distingue, c’est dans l’intégration de l’intelligence artificielle. Son Comet Assistant n’est pas cantonné à un panneau latéral. Il peut interagir directement avec le contenu de n’importe quelle page, que ce soit pour résumer un article, répondre à des questions sur une vidéo YouTube, ou extraire les infos clés d’un document Google Docs. L’IA devient ainsi copilote discret mais puissant de votre navigation.Côté technique, Perplexity mise sur une architecture hybride : un traitement local pour les tâches simples, et des appels à des serveurs cloud pour les demandes plus lourdes. Résultat : plus de confidentialité, moins de latence, et des modes de protection des données ajustables, jusqu’à une version « strictement locale » pour les utilisateurs soucieux de sécurité. Mais Comet ne se limite pas à la recherche : il compare des produits, réserve des rendez-vous, organise l’affichage des onglets, et peut même résumer votre boîte mail. L’interface devient conversationnelle, presque agentique. Hasard du calendrier ? Selon Reuters, OpenAI préparerait aussi le lancement d’un navigateur intelligent basé sur Chromium. Objectif : interagir avec les contenus web directement via ChatGPT, sans passer par les sites. Le duel des navigateurs dopés à l’IA est lancé. Et il s’annonce passionnant.