Un article révèle que le GPT-4 d’OpenAI avec vision présente encore des lacunes

Un article révèle que le GPT-4 d’OpenAI avec vision présente encore des lacunes

Lorsque OpenAI a dévoilé pour la première fois GPT-4, son modèle phare d’IA génératrice de texte, l’entreprise a vanté la multimodalité du modèle – en d’autres termes, sa capacité à comprendre le contexte des images aussi bien que celui du texte. GPT-4 peut légender – et même interpréter – des images relativement complexes, a déclaré OpenAI, par exemple en identifiant un adaptateur de câble Lightning à partir d’une photo d’un iPhone branché.

Mais depuis l’annonce de GPT-4 à la fin du mois de mars, OpenAI a freiné l’utilisation des fonctions d’image du modèle, en raison de craintes d’abus et de problèmes de confidentialité. Jusqu’à récemment, la nature exacte de ces craintes restait un mystère. Mais en début de semaine, OpenAI a publié un document technique détaillant son travail pour atténuer les aspects les plus problématiques des outils d’analyse d’image de GPT-4.

À ce jour, GPT-4 avec vision, abrégé « GPT-4V » par OpenAI en interne, n’a été utilisé régulièrement que par quelques milliers d’utilisateurs de Be My Eyes, une application destinée à aider les personnes malvoyantes et aveugles à se repérer dans l’environnement qui les entoure. Cependant, au cours des derniers mois, OpenAI a également commencé à s’engager avec des « red teamers » pour sonder le modèle à la recherche de signes de comportement involontaire, selon l’article.

Dans ce document, OpenAI affirme avoir mis en place des mesures de protection pour éviter que GPT-4V ne soit utilisé à des fins malveillantes, par exemple pour casser les CAPTCHA (l’outil anti-spam que l’on trouve sur de nombreux formulaires web), identifier une personne ou estimer son âge ou sa race, et tirer des conclusions sur la base d’informations qui ne sont pas présentes sur une photo. OpenAI affirme également avoir travaillé à réduire les biais les plus nuisibles de GPT-4V, en particulier ceux liés à l’apparence physique, au sexe ou à l’appartenance ethnique d’une personne.

Mais comme pour tous les modèles d’IA, les mesures de protection sont limitées.

L’article révèle que GPT-4V a parfois du mal à faire les bonnes déductions, par exemple en combinant par erreur deux chaînes de texte dans une image pour créer un terme inventé. Comme le GPT-4 de base, le GPT-4V a tendance à halluciner ou à inventer des faits sur un ton autoritaire. Il n’hésite pas non plus à omettre du texte ou des caractères, à négliger des symboles mathématiques et à ne pas reconnaître des objets ou des décors plutôt évidents.

GPT-4V OpenAI

Crédits d’image : OpenAI

Il n’est donc pas surprenant que, dans des termes clairs et sans ambiguïté, OpenAI déclare que le GPT-4V ne doit pas être utilisé pour repérer des substances dangereuses ou des produits chimiques dans des images. (Ce journaliste n’avait même pas pensé à ce cas d’utilisation, mais apparemment, cette perspective préoccupe suffisamment OpenAI pour que l’entreprise ressente le besoin de le signaler). Les membres de l’équipe rouge ont constaté que, bien que le modèle identifie parfois correctement des aliments toxiques comme les champignons, il identifie mal des substances telles que le fentanyl, le carfentanil et la cocaïne à partir d’images de leurs structures chimiques.

Appliqué au domaine de l’imagerie médicale, le GPT-4V ne fait pas mieux, donnant parfois des réponses erronées à la même question que celle à laquelle il a répondu correctement dans un contexte précédent. Il ne connaît pas non plus les pratiques courantes telles que la visualisation de scanners d’imagerie comme si le patient vous faisait face (ce qui signifie que le côté droit de l’image correspond au côté gauche du patient), ce qui l’amène à poser des diagnostics erronés dans un grand nombre de cas.

GPT-4V OpenAI

Crédits d’image : OpenAI

Ailleurs, OpenAI prévient que GPT-4V ne comprend pas les nuances de certains symboles de haine – par exemple, il ne comprend pas la signification moderne de la croix templière (suprématie blanche) aux États-Unis. Plus étrangement, et peut-être un symptôme de ses tendances hallucinatoires, GPT-4V a été observé en train de faire des chansons ou des poèmes faisant l’éloge de certains personnages ou groupes haineux lorsqu’on lui fournissait une image de ceux-ci, même lorsque les personnages ou les groupes n’étaient pas explicitement nommés.

GPT-4V est également discriminatoire à l’égard de certains sexes et de certains types de corps, mais uniquement lorsque les mesures de protection de la production d’OpenAI sont désactivées. OpenAI écrit que, dans un test, lorsqu’il a été invité à donner des conseils à une femme photographiée en maillot de bain, GPT-4V a donné des réponses concernant presque entièrement le poids corporel de la femme et le concept de positivité corporelle. On peut supposer que cela n’aurait pas été le cas si l’image avait été celle d’un homme.

GPT-4V OpenAI

Crédits d’image : OpenAI

À en juger par les mises en garde formulées dans le document, GPT-4V reste un travail en cours, à quelques pas de ce qu’OpenAI aurait pu envisager à l’origine. Dans de nombreux cas, l’entreprise a été contrainte de mettre en place des mesures de protection trop strictes pour empêcher le modèle de diffuser des informations toxiques ou erronées, ou de compromettre la vie privée d’une personne.

OpenAI affirme qu’elle met en place des « mesures d’atténuation » et des « processus » pour étendre les capacités du modèle de manière « sûre », en permettant par exemple à GPT-4V de décrire des visages et des personnes sans les identifier par leur nom. Mais le document révèle que GPT-4V n’est pas une panacée et qu’OpenAI a du pain sur la planche.

IA