CentML reçoit 27 millions de dollars de Nvidia et d’autres entreprises pour améliorer l’efficacité des modèles d’IA

CentML reçoit 27 millions de dollars de Nvidia et d’autres entreprises pour améliorer l’efficacité des modèles d’IA

Contrairement à ce que vous avez pu entendre, l’ère des grands tours d’amorçage n’est pas révolue, du moins dans le secteur de l’IA.

CentML, une startup qui développe des outils pour réduire le coût – et améliorer les performances – du déploiement de modèles d’apprentissage automatique, a annoncé ce matin qu’elle avait levé 27 millions de dollars dans le cadre d’un tour d’amorçage étendu avec la participation de Gradient Ventures, TR Ventures, Nvidia et Misha Bilenko, vice-président de Microsoft Azure AI.

CentML a initialement clôturé son tour d’amorçage en 2022, mais a prolongé le tour au cours des derniers mois à mesure que l’intérêt pour son produit augmentait, ce qui a porté le total des fonds levés à 30,5 millions de dollars.

Selon Gennady Pekhimenko, cofondateur et PDG de CentML, ces nouveaux capitaux serviront à soutenir les efforts de développement de produits et de recherche de CentML, ainsi qu’à renforcer l’équipe d’ingénieurs de la startup et son effectif de 30 personnes réparties entre les États-Unis et le Canada.

Pekhimenko, professeur associé à l’Université de Toronto, a cofondé CentML l’année dernière avec Akbar Nurlybayev et les étudiants en doctorat Shang Wang et Anand Jayarajan. M. Pekhimenko explique qu’ils partageaient l’idée de créer une technologie susceptible d’améliorer l’accès au calcul face à l’aggravation du problème de l’approvisionnement en puces d’IA.

« Les coûts de l’apprentissage automatique, les pénuries de talents et de puces… toute entreprise d’IA et d’apprentissage automatique est confrontée à au moins un de ces défis, et la plupart en affrontent plusieurs à la fois « , a déclaré Pekhimenko à TechCrunch lors d’une interview par e-mail. « Les puces les plus haut de gamme sont souvent indisponibles en raison de la forte demande des entreprises et des startups. Cela conduit les entreprises à sacrifier la taille du modèle qu’elles peuvent déployer ou se traduit par des latences d’inférence plus élevées pour leurs modèles déployés. »

La plupart des entreprises qui forment des modèles, en particulier des modèles d’IA générative tels que ChatGPT et Stable Diffusion, s’appuient fortement sur le matériel basé sur les GPU. La capacité des GPU à effectuer de nombreux calculs en parallèle les rend bien adaptés à l’entraînement des IA les plus performantes d’aujourd’hui.

Mais il n’y a pas assez de puces pour tout le monde.

Microsoft est confronté à une pénurie de matériel serveur nécessaire à l’exécution de l’IA, si grave qu’elle pourrait entraîner des interruptions de service, a averti l’entreprise dans un rapport sur les résultats de l’été. Les cartes d’IA les plus performantes de Nvidia seraient épuisées jusqu’en 2024.

Cela a conduit certaines entreprises, dont OpenAI, Google, AWS, Meta et Microsoft, à construire – ou à envisager de construire – leurs propres puces personnalisées pour l’entraînement des modèles. Mais même cela ne s’est pas avéré être une panacée. Les efforts de Meta se sont heurtés à des problèmes qui ont conduit l’entreprise à mettre au rebut une partie de son matériel expérimental. Et Google n’a pas réussi à suivre le rythme de la demande pour son équivalent GPU hébergé dans le nuage, l’unité de traitement tensoriel (TPU), comme l’a récemment rapporté Wired.

Étant donné que les dépenses en puces axées sur l’IA devraient atteindre 53 milliards de dollars cette année et plus que doubler au cours des quatre prochaines années, selon Gartner, M. Pekhimenko a estimé que le moment était venu de lancer un logiciel capable de faire fonctionner les modèles de manière plus efficace sur le matériel existant.

« La formation des modèles d’IA et d’apprentissage automatique est de plus en plus coûteuse », a déclaré M. Pekhimenko. « Grâce à la technologie d’optimisation de CentML, nous sommes en mesure de réduire les dépenses jusqu’à 80 % sans compromettre la vitesse ou la précision. »

Ce n’est pas peu dire. Mais à un niveau élevé, le logiciel de CentML est relativement facile à comprendre.

La plateforme tente d’identifier les goulets d’étranglement lors de l’apprentissage d’un modèle et de prédire le temps total et le coût de déploiement d’un modèle. En outre, CentML donne accès à un compilateur – un composant qui traduit le code source d’un langage de programmation en code machine compréhensible par un matériel tel qu’un GPU – afin d’optimiser automatiquement les charges de travail d’apprentissage des modèles pour qu’elles fonctionnent au mieux sur le matériel cible.

M. Pekhimenko affirme que le logiciel CentML ne dégrade pas les modèles et que son utilisation ne demande que peu ou pas d’efforts de la part des ingénieurs.

« Pour l’un de nos clients, nous avons optimisé son modèle Llama 2 pour qu’il fonctionne trois fois plus vite en utilisant des cartes GPU Nvidia A10 », a-t-elle ajouté.

CentML n’est pas le premier à adopter une approche logicielle de l’optimisation des modèles. Ses concurrents sont MosaicML, que Databricks a racheté en juin pour 1,3 milliard de dollars, et OctoML, qui a reçu une injection de 85 millions de dollars en novembre 2021 pour sa plateforme d’accélération de l’apprentissage automatique.

Mais Pekhimenko affirme que les techniques de CentML n’entraînent pas de perte de précision du modèle, comme c’est parfois le cas pour MosaicML, et que le compilateur de CentML est de « nouvelle génération » et plus performant que celui d’OctoML.

Dans un avenir proche, CentML prévoit d’optimiser non seulement l’apprentissage des modèles, mais aussi l’inférence, c’est-à-dire l’exécution des modèles après leur apprentissage. Aujourd’hui, les GPU sont également très utilisés pour l’inférence, et M. Pekhimenko y voit une voie de croissance potentielle pour l’entreprise.

« La plate-forme CentML peut exécuter n’importe quel modèle », explique M. Pekhimenko. « CentML produit un code optimisé pour une variété de GPU et réduit la mémoire nécessaire pour déployer les modèles, ce qui permet aux équipes de les déployer sur des GPU plus petits et moins chers.

IA