La plateforme de clonage vocal Resemble AI obtient 8 millions de dollars

La plateforme de clonage vocal Resemble AI obtient 8 millions de dollars

Resemble AI, une plateforme qui utilise l’IA générative pour cloner des voix réalistes, a annoncé aujourd’hui avoir levé 8 millions de dollars dans le cadre d’un tour de table de série A mené par Javelin Venture Partners, avec la participation de Craft Ventures et Ubiquity Ventures.

Cette tranche, qui porte le total des fonds levés par la startup à 12 millions de dollars, servira à développer les produits d’entreprise de Resemble et à doubler la taille de son équipe pour atteindre plus de 40 personnes d’ici la fin de l’année, selon Zohaib Ahmed, cofondateur et PDG de l’entreprise.

« La technologie de Resemble est utilisée par certaines des plus grandes sociétés de médias au monde pour créer du contenu qui était auparavant impossible », a déclaré Zohaib Ahmed à TechCrunch lors d’une interview par e-mail.

Resemble a été fondée en 2019 par Ahmed et Saqib Muhammad après avoir constaté que les voix dans les jeux vidéo ne pouvaient pas suivre les mises à jour fréquentes des versions des jeux eux-mêmes. Ahmed travaillait auparavant chez Magic Leap en tant qu’ingénieur logiciel principal, après avoir travaillé chez BlackBerry et Hipmunk.

Resemble a démarré modestement, en se concentrant principalement sur les cas d’utilisation des jeux. Mais la plateforme s’est développée pour offrir une technologie d’IA capable de « transférer » des voix vers d’autres langues, de générer des messages personnalisés à partir d’acteurs vocaux et de créer des agents conversationnels en temps réel.

Resemble n’est qu’un acteur parmi d’autres sur le marché en pleine expansion de l’IA vocale générative. Papercup, Deepdub, ElevenLabs, Respeecher, Acapela et Voice.ai comptent parmi les startups les plus notables qui fournissent des outils d’IA pour cloner et générer des voix, sans oublier les grands noms de la technologie comme AWS, Azure et Google Cloud.

Il s’agit pourtant d’une technologie controversée, et ce n’est pas sans raison.

Motherboard explique que les comédiens sont de plus en plus souvent invités à céder les droits de leur voix, afin que les clients puissent utiliser l’IA pour générer des versions synthétiques qui pourraient éventuellement les remplacer, parfois sans compensation.

Ressembler à l'IA

Crédits images : Ressembler à l’IA

Les « deepfakes » sont un autre problème.

Des acteurs malveillants utilisent l’IA pour cloner la voix des gens et faire croire aux victimes qu’elles parlent à un parent ou à un client. Et ce n’est pas seulement le potentiel criminel qui tire la sonnette d’alarme. En 2021, un documentariste a été critiqué pour avoir engagé une société afin de cloner la voix d’Anthony Bourdain à titre posthume, avec l’accord des ayants droit de ce dernier. Au cours des années qui ont suivi, les imitations de voix ont envahi les médias sociaux, la plupart du temps pour des raisons inoffensives, mais parfois non.

Ahmed affirme que Resemble se distingue dans le domaine de l’éthique.

« En plus d’exiger le consentement explicite de l’utilisateur pour cloner des voix, des directives d’utilisation strictes sont appliquées pour empêcher toute utilisation malveillante », a-t-il déclaré.

À cette fin, Resemble demande aux utilisateurs de fournir un enregistrement d’un « clip de consentement » dans la voix qu’ils tentent de cloner. Si la voix du clip ne correspond pas aux autres clips, Resemble empêche l’utilisateur de créer la voix d’IA.

En outre, pour éviter les abus lors de l’enregistrement, Resemble oblige les utilisateurs à prononcer une série de phrases spécifiques avec leur propre voix. S’ils s’écartent du script, Resemble signale l’enregistrement comme susceptible d’être utilisé à mauvais escient.

« Une fois la voix créée, l’utilisateur possède tous les droits sur cette voix », explique M. Ahmed. « Nous n’utilisons pas ces données vocales pour former d’autres modèles et nous ne les revendons pas non plus à des entreprises tierces… Pour les solutions personnalisées, nous travaillons avec les entreprises dans le cadre d’un processus rigoureux afin de nous assurer que la voix qu’elles clonent est utilisable par elles et qu’elles disposent des consentements appropriés avec les acteurs vocaux. »

Resemble a également mis au point un produit, Resemble Detect, conçu pour valider l’authenticité des données audio à l’aide d’un modèle d’IA formé pour distinguer les faux des vrais sons. Le modèle « voit » essentiellement différentes fréquences où des artefacts résultant de l’édition ou de la manipulation du son pourraient être contenus, faisant une prédiction de 0% à 100% de confiance quant à la « véracité » du clip.

Detect est censé compléter la technologie de filigrane audio de Resemble, PerTh Watermarker, qui utilise un modèle d’intelligence artificielle pour produire et insérer des tonalités audio imperceptibles à l’oreille humaine et porteuses d’informations d’identification. (Il convient de noter que PerTh Watermarker est un peu un jeu de verrouillage de plateforme – il ne peut marquer et détecter que la parole générée par Resemble, et n’est pas compatible avec d’autres outils d’IA générateurs de voix, commerciaux ou open source).

Ahmed considère que ces outils ont largement contribué au succès de Resemble. La plateforme compte plus d’un million d’utilisateurs, dit-il, qui ont généré 35 ans d’audio au cours des 12 derniers mois.

« La réglementation de l’IA étant au cœur des préoccupations des responsables gouvernementaux, Resemble fournit des informations et des recommandations sur l’utilisation responsable de l’audio génératif », explique M. Ahmed. « Avec Resemble, la création de contenus vocaux engageants et de haute qualité est maintenant plus facile que jamais, permettant aux créateurs de contenu d’ajouter un tout nouveau niveau d’authenticité à leur travail, et ajoutera un nouveau niveau d’immersion pour le public. »

IA