Microsoft ouvre les sources d’EvoDiff, une nouvelle IA génératrice de protéines

Microsoft ouvre les sources d’EvoDiff, une nouvelle IA génératrice de protéines

Les protéines, molécules naturelles qui remplissent des fonctions cellulaires essentielles dans l’organisme, sont les éléments constitutifs de toutes les maladies. La caractérisation des protéines peut révéler les mécanismes d’une maladie, y compris les moyens de la ralentir ou de l’inverser, tout en permettant d’identifier les causes de la maladie. créer La création de protéines peut conduire à des classes de médicaments et de thérapies entièrement nouvelles.

Mais le processus actuel de conception des protéines en laboratoire est coûteux, tant du point de vue des ressources informatiques que des ressources humaines. Il s’agit de trouver une structure de protéine qui pourrait plausiblement d’effectuer une tâche spécifique à l’intérieur du corps, puis de trouver une séquence de protéines – la séquence d’acides aminés qui composent une protéine – susceptible de se « plier » dans cette structure. (Les protéines doivent se plier correctement en trois dimensions pour remplir la fonction pour laquelle elles ont été conçues).

Cela ne doit pas nécessairement être aussi compliqué.

Cette semaine, Microsoft a présenté un cadre polyvalent, EvoDiff, qui, selon la société, peut générer des protéines « haute fidélité » et « diverses » à partir d’une séquence protéique. Contrairement à d’autres structures de génération de protéines, EvoDiff ne nécessite aucune information structurelle sur la protéine cible, supprimant ainsi l’étape généralement la plus laborieuse.

Disponible en open source, EvoDiff pourrait être utilisé pour créer des enzymes pour de nouvelles thérapies et méthodes d’administration de médicaments, ainsi que de nouvelles enzymes pour des réactions chimiques industrielles, explique Kevin Yang, chercheur principal chez Microsoft.

« Nous pensons qu’EvoDiff élargira les capacités de l’ingénierie des protéines au-delà du paradigme structure-fonction vers une conception programmable, séquence-première », a déclaré Yang, l’un des co-créateurs d’EvoDiff, à TechCrunch lors d’une interview par e-mail. « Avec EvoDiff, nous démontrons que nous n’avons peut-être pas besoin de structure, mais plutôt que la séquence des protéines est tout ce dont vous avez besoin pour concevoir de nouvelles protéines de manière contrôlable.

Le cadre d’EvoDiff repose sur un modèle à 640 paramètres, formé à partir de données provenant de toutes les espèces et classes fonctionnelles de protéines. (Les « paramètres » sont les éléments d’un modèle d’intelligence artificielle appris à partir de données d’entraînement et définissent essentiellement les compétences du modèle sur un problème – dans le cas présent, la génération de protéines). Les données utilisées pour entraîner le modèle proviennent de l’ensemble de données OpenFold pour les alignements de séquences et d’UniRef50, un sous-ensemble de données provenant d’UniProt, la base de données de séquences de protéines et d’informations fonctionnelles gérée par le consortium UniProt.

EvoDiff est un modèle de diffusion dont l’architecture est similaire à celle de nombreux modèles modernes de génération d’images tels que Stable Diffusion et DALL-E 2. EvoDiff apprend à soustraire progressivement le bruit d’une protéine de départ presque entièrement constituée de bruit, en la rapprochant – lentement, pas à pas – d’une séquence de protéines.

Microsoft EvoDiff

Processus par lequel EvoDiff génère des protéines. Crédits d’image : Microsoft EvoDiff

Les modèles de diffusion ont été de plus en plus appliqués à des domaines autres que la génération d’images, qu’il s’agisse de la conception de nouvelles protéines, comme EvoDiff, de la création musicale ou même de la synthèse vocale.

« S’il y a une chose à retenir (d’EvoDiff), je pense que c’est l’idée que nous pouvons – et devrions – générer des protéines à partir de séquences en raison de la généralité, de l’échelle et de la modularité que nous sommes en mesure d’atteindre », a déclaré par courriel Ava Amini, chercheur principal chez Microsoft et coauteur d’EvoDiff. « Notre cadre de diffusion nous permet de le faire et de contrôler la façon dont nous concevons ces protéines pour répondre à des objectifs fonctionnels spécifiques.

Pour reprendre les propos d’Amini, EvoDiff peut non seulement créer de nouvelles protéines, mais aussi combler les « lacunes » dans la conception d’une protéine existante, pour ainsi dire. À partir d’une partie d’une protéine qui se lie à une autre protéine, le modèle peut générer une séquence d’acides aminés autour de cette partie qui répond à un ensemble de critères, par exemple.

Comme EvoDiff conçoit des protéines dans « l’espace des séquences » plutôt que dans la structure des protéines, il peut également synthétiser des « protéines désordonnées » qui ne se replient pas dans une structure tridimensionnelle finale. Tout comme les protéines fonctionnant normalement, les protéines désordonnées jouent un rôle important en biologie et dans les maladies, notamment en renforçant ou en réduisant l’activité d’autres protéines.

Il convient de noter que les recherches à l’origine d’EvoDiff n’ont pas fait l’objet d’un examen par les pairs, du moins pas encore. Sarah Alamdari, data scientist chez Microsoft qui a contribué au projet, admet qu’il y a « beaucoup plus de travail de mise à l’échelle » à faire avant que le cadre puisse être utilisé commercialement.

« Il ne s’agit que d’un modèle de 640 millions de paramètres, et nous pourrions constater une amélioration de la qualité de la génération si nous passions à des milliards de paramètres », a déclaré M. Alamdari par courrier électronique. « Bien que nous ayons démontré certaines stratégies à gros grain, pour obtenir un contrôle encore plus fin, nous voudrions conditionner EvoDiff à un texte, à des informations chimiques ou à d’autres moyens de spécifier la fonction souhaitée.

Dans une prochaine étape, l’équipe d’EvoDiff prévoit de tester les protéines générées par le modèle en laboratoire afin de déterminer si elles sont viables. Si c’est le cas, ils commenceront à travailler sur la prochaine génération du cadre.

IA