Cloudflare lance de nouveaux outils d’IA pour aider les clients à déployer et à exécuter des modèles.

Cloudflare lance de nouveaux outils d’IA pour aider les clients à déployer et à exécuter des modèles.

Cherchant à profiter de l’engouement pour l’IA, Cloudflare, le fournisseur de services en nuage, lance une nouvelle collection de produits et d’applications visant à aider les clients à construire, déployer et exécuter des modèles d’IA à la périphérie du réseau.

L’une des nouvelles offres, Workers AI, permet aux clients d’accéder à des GPU physiquement proches, hébergés par des partenaires de Cloudflare, pour exécuter des modèles d’IA sur la base d’un paiement à l’utilisation. Une autre offre, Vectorize, fournit une base de données vectorielle pour stocker les embeddings vectoriels – représentations mathématiques des données – générés par les modèles de Workers AI. Un troisième, AI Gateway, est conçu pour fournir des mesures permettant aux clients de mieux gérer les coûts d’exécution des applications d’IA.

Selon Matthew Prince, PDG de Cloudflare, le lancement de la nouvelle suite de produits axés sur l’IA a été motivé par le désir des clients de Cloudflare de disposer d’une solution de gestion de l’IA plus simple et plus facile à utiliser, axée sur la réduction des coûts.

« Les offres déjà présentes sur le marché sont encore très compliquées – elles nécessitent de rassembler de nombreux nouveaux fournisseurs, et cela devient vite coûteux « , a déclaré Prince à TechCrunch lors d’une interview par e-mail. « Il y a également très peu d’informations actuellement disponibles sur la façon dont vous dépensez votre argent dans l’IA ; l’observabilité est un grand défi alors que les dépenses d’IA montent en flèche. Nous pouvons aider à simplifier tous ces aspects pour les développeurs. »

À cette fin, Workers AI tente de s’assurer que l’inférence de l’IA se produit toujours sur des GPU proches des utilisateurs (d’un point de vue géographique) afin d’offrir à l’utilisateur final une expérience à faible latence et alimentée par l’IA. En s’appuyant sur ONNX, la boîte à outils intermédiaire d’apprentissage automatique soutenue par Microsoft et utilisée pour convertir les différents cadres d’IA, Workers AI permet aux modèles d’IA de s’exécuter là où le traitement est le plus logique en termes de bande passante, de latence, de connectivité, de traitement et de contraintes de localisation.

Les utilisateurs de Workers AI peuvent choisir des modèles dans un catalogue pour commencer, y compris des modèles de langage de grande taille (LLM) comme Llama 2 de Meta, des modèles de reconnaissance automatique de la parole, des classificateurs d’images et des modèles d’analyse des sentiments. Avec Workers AI, les données restent dans la région du serveur où elles se trouvaient à l’origine. Et toutes les données utilisées pour l’inférence – par exemple, les invites envoyées à un LLM ou à un modèle de génération d’images – ne sont pas utilisées pour former les modèles d’IA actuels ou futurs.

« Idéalement, l’inférence devrait se faire à proximité de l’utilisateur pour une expérience utilisateur à faible latence. Cependant, les appareils ne disposent pas toujours de la capacité de calcul ou de la puissance de la batterie nécessaires pour exécuter de grands modèles tels que les LLM », a déclaré M. Prince. « Par ailleurs, les nuages centralisés traditionnels sont souvent trop éloignés géographiquement de l’utilisateur final. Ces nuages centralisés sont également basés pour la plupart aux États-Unis, ce qui complique la tâche des entreprises du monde entier qui préfèrent ne pas (ou ne peuvent pas légalement) envoyer des données en dehors de leur pays d’origine. Cloudflare est le meilleur moyen de résoudre ces deux problèmes.

Workers AI a déjà un fournisseur partenaire important : La startup d’IA Hugging Face. Selon Cloudflare, Hugging Face optimisera les modèles d’IA générative pour les exécuter sur Workers AI, tandis que Cloudflare deviendra le premier partenaire GPU sans serveur pour le déploiement des modèles de Hugging Face.

Databricks en est un autre. Databricks déclare qu’il s’efforcera d’apporter l’inférence de l’IA à l’IA des travailleurs par le biais de MLflow, la plateforme open source pour la gestion des flux de travail d’apprentissage automatique, et la place de marché de Databricks pour les logiciels. Cloudflare rejoindra le projet MLflow en tant que contributeur actif, et Databricks déploiera les capacités de MLflow aux développeurs qui travaillent activement sur la plateforme Workers AI.

Vectorize vise un segment différent de clients : ceux qui ont besoin de stocker dans une base de données des encastrements vectoriels pour des modèles d’IA. Les embeddings vectoriels, les éléments constitutifs des algorithmes d’apprentissage automatique utilisés par des applications allant de la recherche aux assistants d’intelligence artificielle, sont des représentations des données d’apprentissage qui sont plus compactes tout en préservant ce qui est significatif à propos des données.

Les modèles de Workers AI peuvent être utilisés pour générer des embeddings qui peuvent ensuite être stockés dans Vectorize. Les clients peuvent également conserver les embeddings générés par des modèles tiers provenant de fournisseurs tels qu’OpenAI et Cohere.

Les bases de données vectorielles sont loin d’être nouvelles. Des startups comme Pinecone les hébergent, tout comme les acteurs historiques du cloud public tels que AWS, Azure et Google Cloud. Mais Prince affirme que Vectorize bénéficie du réseau mondial de Cloudflare, ce qui permet de rapprocher les requêtes de la base de données des utilisateurs, réduisant ainsi la latence et le temps d’inférence.

« En tant que développeur, se lancer dans l’IA aujourd’hui nécessite l’accès à – et la gestion de – l’infrastructure qui est inaccessible à la plupart d’entre nous « , a déclaré Prince. « Nous sommes en mesure d’ajouter cette technologie à notre réseau existant, ce qui nous permet de tirer parti de notre infrastructure existante et de répercuter de meilleures performances, ainsi qu’un meilleur coût.

Le dernier composant de la suite AI, AI Gateway, offre des fonctions d’observabilité pour faciliter le suivi du trafic AI. Par exemple, AI Gateway surveille le nombre de requêtes d’inférence de modèle ainsi que la durée de ces requêtes, le nombre d’utilisateurs utilisant un modèle et le coût global d’exploitation d’une application d’IA.

En outre, AI Gateway offre des possibilités de réduction des coûts, notamment la mise en cache et la limitation des taux. Avec la mise en cache, les clients peuvent mettre en cache les réponses des LLM aux questions courantes, ce qui minimise (mais sans doute n’élimine pas complètement) la nécessité pour un LLM de générer une nouvelle réponse. La limitation du débit permet de mieux contrôler l’évolution des applications en atténuant les effets des acteurs malveillants et des trafics importants.

Prince affirme qu’avec AI Gateway, Cloudflare est l’un des rares fournisseurs de sa taille à permettre aux développeurs et aux entreprises de ne payer que pour le calcul qu’ils utilisent. Ce n’est pas tout à fait vrai – des outils tiers comme GPTCache peuvent reproduire la fonctionnalité de mise en cache d’AI Gateway sur d’autres fournisseurs, et des fournisseurs comme Vercel proposent la limitation de débit en tant que service – mais il affirme également que l’approche de Cloudflare est plus rationalisée que celle de ses concurrents.

Nous verrons si c’est le cas.

« Actuellement, les clients paient pour un grand nombre de calculs inutilisés sous la forme de machines virtuelles et de GPU qui ne sont pas utilisés », a déclaré M. Prince. « Nous voyons une opportunité d’abstraire une grande partie du travail et de la complexité qui sont associés aux opérations d’apprentissage automatique aujourd’hui, et de servir les flux de travail d’apprentissage automatique des développeurs par le biais d’une solution holistique. »

IA