OpenAI lance l’API DALL-E 3 et de nouveaux modèles de synthèse vocale

OpenAI lance l’API DALL-E 3 et de nouveaux modèles de synthèse vocale

OpenAI a lancé une série de nouvelles API lors de sa toute première journée des développeurs.

DALL-E 3, le modèle texte-image d’OpenAI, est désormais disponible via une API, après avoir été proposé à ChatGPT et Bing Chat. À l’instar de la version précédente de DALL-E (par exemple DALL-E 2), l’API intègre un système de modération afin d’éviter les abus, selon OpenAI.

L’API DALL-E 3 offre différentes options de format et de qualité et des résolutions allant de 1024×1024 à 1792×1024, avec des prix commençant à 0,04 $ par image générée. Mais elle est quelque peu limitée par rapport à l’API DALL-E 2 – du moins à l’heure actuelle.

Contrairement à l’API DALL-E 2, DALL-E 3 ne peut pas être utilisé pour créer des versions éditées d’images en demandant au modèle de remplacer certaines zones d’une image préexistante ou de créer des variations d’une image existante. Et lorsqu’une demande de génération est envoyée à DALL-E 3, OpenAI indique qu’elle la réécrira automatiquement « pour des raisons de sécurité » et « pour ajouter plus de détails » – ce qui pourrait conduire à des résultats moins précis en fonction de l’invite.

Par ailleurs, OpenAI propose désormais une API de synthèse vocale, Audio API, qui offre six voix prédéfinies – Alloy, Echo, Fable, Onyx, Nova et Shimer – et deux variantes de modèles d’IA générative. Elle est disponible à partir d’aujourd’hui, à un prix commençant à 0,015 $ par entrée de 1 000 caractères.

« C’est beaucoup plus naturel que tout ce que nous avons entendu jusqu’à présent, ce qui peut rendre les applications plus naturelles et plus accessibles », a déclaré Sam Altman d’OpenAI sur scène. « Cela permet également de débloquer de nombreux cas d’utilisation tels que l’apprentissage des langues et l’assistance vocale.

Contrairement à certaines plateformes et outils de synthèse vocale, OpenAI ne permet pas de contrôler l’effet émotionnel de l’audio généré. Dans la documentation de l’API audio, la société note que « certains facteurs » peuvent influencer le son des voix générées, comme les majuscules ou la grammaire d’un texte lu à haute voix, mais que les tests internes d’OpenAI à ce sujet ont donné des « résultats mitigés ».

OpenAI demande aux développeurs qui utilisent l’application requise d’informer les utilisateurs que le son est généré par l’IA.

Dans une annonce connexe, OpenAI a lancé la prochaine version de son modèle de reconnaissance vocale automatique open source, Whisper large-v3, qui, selon l’entreprise, offre des performances améliorées dans toutes les langues. Cette version est disponible sur GitHub, sous une licence permissive.

IA