Le Gen-2 de Runway montre les limites de la technologie actuelle de conversion du texte en vidéo

Le Gen-2 de Runway montre les limites de la technologie actuelle de conversion du texte en vidéo

Lors d’un récent entretien avec Collider, Joe Russo, le réalisateur de films à grand spectacle de Marvel tels que « Avengers : Endgame », a prédit que, d’ici deux ans, l’IA sera capable de créer un film à part entière.

Il s’agit là d’un calendrier plutôt optimiste. Mais nous nous en rapprochons.

Cette semaine, Runway, une startup d’IA soutenue par Google qui a contribué au développement du générateur d’images Stable Diffusion, a lancé Gen-2, un modèle qui génère des vidéos à partir d’un texte ou d’une image existante (l’accès à Gen-2 était auparavant limité et sur liste d’attente). (Gen-2 est la suite du modèle Gen-1 de Runway lancé en février, Gen-2 est l’un des premiers modèles de conversion de texte en vidéo disponibles dans le commerce.

L’expression « disponible dans le commerce » est une distinction importante. La conversion de texte en vidéo, qui constitue la prochaine frontière logique de l’IA générative après les images et le texte, devient un domaine de plus en plus important, en particulier pour les géants de la technologie, dont plusieurs ont fait la démonstration de modèles de conversion de texte en vidéo au cours de l’année écoulée. Mais ces modèles restent encore au stade de la recherche, inaccessibles à tous, sauf à quelques scientifiques et ingénieurs.

Bien sûr, le premier n’est pas nécessairement le meilleur.

Par curiosité personnelle et pour vous rendre service, chers lecteurs, j’ai fait passer quelques messages à Gen-2 pour me faire une idée de ce que le modèle peut – et ne peut pas – accomplir. (Il n’y avait pas vraiment de méthode dans ma folie, mais j’ai essayé de capturer une gamme d’angles, de genres et de styles qu’un réalisateur, qu’il soit professionnel ou en fauteuil, pourrait aimer voir sur le grand écran – ou sur un ordinateur portable, selon le cas.

L’une des limites de la Gen-2 qui est apparue immédiatement est le taux de rafraîchissement des vidéos de quatre secondes générées par le modèle. Il est assez faible et perceptible, au point de ressembler à un diaporama par endroits.

Runway Gen-2

Crédits images : Piste d’atterrissage

Il est difficile de savoir s’il s’agit d’un problème technique ou d’une tentative de Runway d’économiser sur les coûts de calcul. Quoi qu’il en soit, cela fait de Gen-2 une proposition peu attrayante pour les éditeurs qui espèrent éviter le travail de post-production.

Au-delà du problème du taux de rafraîchissement, j’ai constaté que les clips générés par le Gen-2 ont tendance à avoir en commun un certain grain ou un certain flou, comme si on leur avait appliqué une sorte de filtre Instagram d’un autre temps. D’autres artefacts apparaissent également par endroits, comme la pixellisation autour des objets lorsque la « caméra » (à défaut d’un meilleur terme) les encercle ou zoome rapidement vers eux.

Comme beaucoup de modèles génératifs, Gen-2 n’est pas particulièrement cohérent en ce qui concerne la physique ou l’anatomie. Comme s’il s’agissait d’une invention d’un surréaliste, les bras et les jambes des personnes dans les vidéos produites par Gen-2 se fondent et se séparent à nouveau, tandis que les objets se fondent dans le sol et disparaissent, leurs reflets se déformant et se distordant. Et – selon l’invitation – les visages peuvent ressembler à des poupées, avec des yeux brillants et dénués d’émotion et une peau pâteuse qui évoque un plastique bon marché.

Runway Gen-2

Crédits images : Piste d’atterrissage

Pour ne rien arranger, il y a le problème du contenu. La génération 2 semble avoir du mal à comprendre les nuances, s’accrochant à certains descripteurs dans les messages-guides tout en en ignorant d’autres, apparemment au hasard.

Piste Gen-2

Crédits images : Piste d’atterrissage

L’une des invites que j’ai essayées, « Une vidéo d’une utopie sous-marine, tournée avec une vieille caméra, dans le style d’un film de ‘found footage' », n’a pas donné lieu à une telle utopie – seulement à ce qui ressemblait à une plongée sous-marine à la première personne à travers un récif corallien anonyme. Gen-2 a également eu du mal à répondre à mes autres questions, ne parvenant pas à produire un zoom avant pour une question demandant spécifiquement un « zoom lent » et n’arrivant pas à trouver le look de l’astronaute moyen.

Le problème pourrait-il provenir de l’ensemble des données d’entraînement de Gen-2 ? Peut-être.

Gen-2, comme Stable Diffusion, est un modèle de diffusion, ce qui signifie qu’il apprend à soustraire progressivement le bruit d’une image de départ entièrement composée de bruit pour la rapprocher, étape par étape, de l’invite. Les modèles de diffusion apprennent en s’entraînant sur des millions, voire des milliards d’exemples. Dans un document académique détaillant l’architecture de Gen-2, Runway indique que le modèle a été entraîné sur un ensemble de données internes de 240 millions d’images et de 6,4 millions de clips vidéo.

La diversité des exemples est essentielle. Si l’ensemble de données ne contient pas beaucoup de séquences d’animation, par exemple, le modèle, qui manque de points de référence, ne sera pas en mesure de générer des animations de qualité raisonnable. (Bien entendu, l’animation étant un domaine très vaste, même si l’ensemble des données ne contient pas beaucoup de séquences d’animation, le modèle ne pourra pas générer des animations de qualité raisonnable. a ont des clips d’anime ou d’animation dessinée à la main, le modèle ne se généraliserait pas nécessairement bien à l’ensemble de la société. tous d’animation).

Piste Gen-2

Crédits images : Piste d’atterrissage

Le point positif, c’est que Gen-2 passe avec succès le test des préjugés au niveau de la surface. Alors que les modèles d’IA générative tels que DALL-E 2 se sont avérés renforcer les préjugés sociétaux, en générant des images de postes d’autorité – comme « PDG ou « directeur » – qui représentent principalement des hommes blancs, Gen-2 s’est montré un tout petit peu plus diversifié dans le contenu qu’il a généré – du moins dans mes tests.

Runway Gen-2

Crédits images : Piste d’atterrissage

À l’invite « Une vidéo d’un PDG entrant dans une salle de conférence », Gen-2 a généré une vidéo d’hommes et de femmes (mais plus d’hommes que de femmes) assis autour d’une sorte de table de conférence. Le résultat de l’invite « Une vidéo d’un médecin travaillant dans un bureau », quant à lui, montre une femme médecin d’apparence vaguement asiatique derrière un bureau.

Les résultats pour toute invite contenant le mot « infirmière » étaient moins prometteurs, montrant systématiquement de jeunes femmes blanches. Il en va de même pour l’expression « une personne qui sert les tables ». De toute évidence, il y a du travail à faire.

Ce que je retiens de tout cela, c’est que Gen-2 est plus une nouveauté ou un jouet qu’un outil véritablement utile dans un flux de travail vidéo. Les sorties pourraient-elles être éditées en quelque chose de plus cohérent ? Peut-être. Mais en fonction de la vidéo, cela nécessiterait potentiellement plus de travail que de tourner des séquences en premier lieu.

Il ne s’agit pas d’être aussi dédaigneux de la technologie. C’est impressionnant ce que Runway a fait, en battant efficacement les géants de la technologie pour la conversion du texte en vidéo. Et je suis sûr que certains utilisateurs trouveront des utilisations pour Gen-2 qui ne nécessitent pas de photoréalisme – ou beaucoup de personnalisation. (Cristóbal Valenzuela, PDG de Runway, a récemment déclaré à Bloomberg qu’il considérait Gen-2 comme un moyen d’offrir aux artistes et aux concepteurs un outil pouvant les aider dans leurs processus créatifs).

Runway Gen-2

Crédits images : Piste d’atterrissage

Je l’ai fait moi-même. Gen-2 peut en effet comprendre une série de styles, comme l’anime et la claymation, qui se prêtent à un taux de rafraîchissement plus faible. Avec un peu de bricolage et de travail d’édition, il ne serait pas impossible d’assembler quelques clips pour créer une pièce narrative.

Si le potentiel des deepfakes vous inquiète, Runway dit qu’il utilise une combinaison d’IA et de modération humaine pour empêcher les utilisateurs de générer des vidéos qui incluent de la pornographie, du contenu violent ou qui violent les droits d’auteur. Je peux confirmer qu’il y a un filtre de contenu – un filtre trop zélé en fait. Mais il ne s’agit pas de méthodes infaillibles, et nous devrons donc voir si elles fonctionnent bien dans la pratique.

Runway Gen-2

Crédits images : Piste d’atterrissage

Mais pour l’instant, les cinéastes, les animateurs, les artistes de l’image de synthèse et les éthiciens peuvent dormir sur leurs deux oreilles. Il faudra attendre au moins deux itérations avant que la technologie de Runway ne permette de générer des images de qualité cinématographique – à supposer qu’elle y parvienne un jour.

IA