Pourquoi choisir les Instances Amazon EC2 Inf2 ?
Les instances Amazon Elastic Compute Cloud (Amazon EC2) Inf2 sont spécialement conçues pour l'inférence de deep learning (DL). Ils offrent des performances élevées au moindre coût dans Amazon EC2 pour les modèles d'intelligence artificielle (IA) générative, y compris les grands modèles de langage (LLM) et les transformateurs de vision. Vous pouvez utiliser les instances Inf2 pour exécuter vos applications d’inférence pour la compréhension du langage naturel, la traduction, la génération de vidéos et d’images, la reconnaissance vocale, la personnalisation, la détection de fraudes, etc.
Les instances Inf2 sont alimentées par AWS Inferentia2, la puce AWS Inferentia de deuxième génération. Les instances Inf2 augmentent les performances d’Inf1 en offrant des performances de calcul 3 fois supérieures, une mémoire d’accélérateur totale 4 fois plus importante, un débit jusqu’à 4 fois supérieur et une latence jusqu’à 10 fois plus faible. Les instances Inf2 sont les premières instances optimisées pour l’inférence dans Amazon EC2 à prendre en charge l’inférence distribuée à grande échelle avec une connectivité à ultra haute vitesse entre les puces Inferentia. Vous pouvez désormais déployer de manière efficace et rentable des modèles comportant des centaines de milliards de paramètres sur plusieurs puces sur des instances Inf2.
Le SDK AWS Neuron aide les développeurs à déployer des modèles sur les deux puces AWS Inferentia et à les former sur les puces AWS Trainium. Il s’intègre nativement avec des cadres de travail, tels que PyTorch et TensorFlow, afin que vous puissiez continuer à utiliser vos flux de travail et votre code d’application existants, et les exécuter sur des instances Inf2.
Avantages
Caractéristiques
Informations sur le produit
Taille d’instance | Puces Inferentia2 | Accélérateur Mémoire (Go) |
vCPU | Mémoire (Gio) |
Local Stockage |
Inter-puce Interconnexion |
Réseau Bande passante (Gbit/s) |
EBS Bande passante (Gbit/s) |
Tarification à la demande | Instance réservée pour 1 an | Instance réservée pour 3 ans |
inf2.xlarge | 1 | 32 | 4 | 16 | EBS uniquement | N/A | Jusqu'à 15 | Jusqu'à 10 | 0,76 USD | 0,45 USD | 0,30 USD |
inf2.8xlarge | 1 | 32 | 32 | 128 | EBS uniquement | N/A | Jusqu'à 25 | 10 | 1,97 USD | 1,81 USD | 0,79 USD |
inf2.24xlarge | 6 | 192 | 96 | 384 | EBS uniquement | Oui | 50 | 30 | 6,49 USD | 3,89 USD | 2,60 USD |
inf2.48xlarge | 12 | 384 | 192 | 768 | EBS uniquement | Oui | 100 | 60 | 12,98 USD | 7,79 USD | 5,19 USD |
Témoignages des clients et des partenaires
Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs métier grâce aux instances Amazon EC2 Inf2.
-
Leonardo.ai
Notre équipe de Leonardo exploite l'IA générative pour permettre aux professionnels de la création et aux passionnés de créer des ressources visuelles d'une qualité, d'une rapidité et d'une cohérence de style inégalées. Le rapport prix/performance d'AWS Inf2 Grâce à AWS Inf2, nous sommes en mesure de réduire nos coûts de 80 %, sans sacrifier les performances, en modifiant fondamentalement la proposition de valeur que nous pouvons proposer à nos clients, en activant nos fonctionnalités les plus avancées à un prix plus accessible. Cela atténue également les inquiétudes concernant les coûts et la disponibilité des capacités pour nos services d'IA auxiliaires, qui revêtent une importance croissante à mesure que nous grandissons et évoluons. Il s’agit d’une technologie clé qui nous permet de continuer à repousser les limites de ce qui est possible avec l’IA générative et d’accéder à une nouvelle ère de créativité et de pouvoir d’expression au profit de nos utilisateurs.
Pete Werner, responsable du service d’IA chez Leonardo.ai -
Runway
Chez Runway, notre suite d’outils IA Magic permet à nos utilisateurs de générer et de modifier du contenu comme jamais auparavant. Nous repoussons constamment les limites du possible grâce à la création de contenu basée sur l'IA, et à mesure que nos modèles d'IA deviennent plus complexes, les coûts d'infrastructure sous-jacents pour exécuter ces modèles à grande échelle peuvent devenir élevés. Grâce à notre collaboration avec les instances Amazon EC2 Inf2 optimisées par AWS Inferentia, nous sommes en mesure d'exécuter certains de nos modèles avec un débit jusqu'à deux fois supérieur à celui des instances comparables basées sur des GPU. Cette inférence performante et peu coûteuse nous permet d’introduire davantage de fonctionnalités, de déployer des modèles plus complexes et, au final, d’offrir une meilleure expérience aux millions de créateurs qui utilisent Runway.
Cristóbal Valenzuela, cofondateur et PDG de Runway -
Qualtrics
Qualtrics crée et développe des logiciels de gestion de l'expérience.
Chez Qualtrics, notre objectif est de créer une technologie qui comble les manques d’expérience pour les clients, les employés, les marques ainsi que les produits. Pour y parvenir, nous développons des modèles complexes de deep learning multi-tâches et multimodaux pour lancer de nouvelles fonctionnalités, telles que la classification de textes, le marquage de séquences, l'analyse de discours, l'extraction de phrases clés et de sujets, la mise en cluster et la compréhension de conversations de bout en bout. Au fur et à mesure que nous utilisons ces modèles plus complexes dans un plus grand nombre d'applications, le volume de données non structurées augmente, et nous avons besoin de solutions optimisées pour l'inférence plus performantes qui peuvent répondre à ces demandes, telles que les instances Inf2, pour offrir les meilleures expériences possible à nos clients. Nous sommes ravis des nouvelles instances Inf2, car elles nous permettront non seulement d’atteindre des débits plus élevés, tout en réduisant considérablement la latence, mais elles introduisent également des fonctionnalités telles que l’inférence distribuée et la prise en charge améliorée de la forme dynamique des entrées, qui nous aideront à mettre à l’échelle pour répondre aux besoins de déploiement à mesure que nous nous dirigeons vers des modèles de plus en plus grands et complexes.
Aaron Colak, responsable principal du machine learning chez Qualtrics -
Finch Computing
Finch Computing est une entreprise de technologie du langage naturel qui fournit des applications d'intelligence artificielle aux gouvernements, aux services financiers et aux intégrateurs de données.
Pour répondre aux besoins de nos clients en matière de traitement du langage naturel en temps réel, nous développons des modèles de deep learning de pointe qui se mettent à l’échelle des importantes charges de travail de production. Nous devons fournir des transactions à faible latence et atteindre des débits élevés pour traiter les flux de données internationaux. Nous avons déjà migré de nombreuses charges de travail de production vers des instances Inf1 et obtenu une réduction de 80 % du coût par rapport aux GPU. Aujourd'hui, nous développons des modèles plus importants et plus complexes qui permettent de développer un sens plus profond et plus pertinent à partir d'un texte écrit. Nombreux sont nos clients qui doivent avoir accès à ces informations en temps réel et les performances des instances Inf2 nous aideront à réduire la latence et à augmenter le débit en comparaison aux instances Inf1. Grâce aux améliorations des performances Inf2 et aux nouvelles fonctionnalités Inf2, telles que la prise en charge des formats d’entrée dynamiques, nous améliorons notre rentabilité, augmentons l’expérience client en temps réel et aidons nos clients à tirer de nouvelles conclusions de leurs données.
Franz Weckesser, architecte principal chez Finch Computing -
Money Forward Inc.
Money Forward, Inc. sert les entreprises et particuliers au moyen d'une plateforme financière ouverte et juste. Au sein de cette plateforme, HiTTO Inc., une société du groupe Money Forward, propose un service de discussion par IA qui utilise des modèles du traitement du langage naturel (NLP) sur mesure pour répondre aux besoins divers des clients d'entreprise.
Nous avons lancé un service de chatbot basé sur l’IA à grande échelle sur les instances Amazon EC2 Inf1 et avons réduit notre latence d’inférence de 97 % par rapport à des instances comparables basées sur GPU, tout en réduisant les coûts. Nous avons été très heureux de constater de nouvelles améliorations des performances dans les résultats de nos premiers tests sur les instances Amazon EC2 Inf2. En utilisant le même modèle NLP personnalisé, AWS Inf2 a pu réduire encore la latence de 10 fois par rapport à Inf1. Alors que nous évoluons vers des modèles de plusieurs milliards de paramètres, Inf2 nous donne l’assurance de pouvoir continuer à fournir à nos clients une expérience utilisateur de bout en bout de qualité supérieure.
Takuya Nakade, directeur technique chez Money Forward Inc. -
Fileread
Chez Fileread.ai, nous développons des solutions pour que l’interaction avec vos documents soit aussi simple que de leur poser des questions, afin de permettre aux utilisateurs de trouver ce qu’ils recherchent dans tous leurs documents et d’obtenir les bonnes informations plus rapidement. Depuis le passage à la nouvelle instance Inf2 EC2, nous avons constaté une amélioration significative de nos capacités d'inférence NLP. Les économies de coûts à elles seules ont changé la donne pour nous, nous permettant d'allouer les ressources de manière plus efficace sans sacrifier la qualité. Nous avons réduit notre latence d'inférence de 33 % tout en augmentant le débit de 50 %, ce qui a ravi nos clients grâce à des délais d'exécution plus rapides. Notre équipe a été époustouflée par la vitesse et les performances d’Inf2 par rapport aux anciennes instances G5, et il est clair qu’il s’agit de l’avenir du déploiement des modèles NLP.
Daniel Hu, PDG chez Fileread -
Yaraku
À Yaraku, notre mission est de créer l’infrastructure qui aide les gens à communiquer au-delà des barrières linguistiques. Notre produit phare, YarakuZen, permet à tout le monde, des traducteurs professionnels aux personnes unilingues, de traduire et de post-éditer des textes et des documents en toute confiance. Pour soutenir ce processus, nous proposons une large gamme d'outils sophistiqués basés sur des modèles de deep learning, couvrant des tâches telles que la traduction, l'alignement de mots bitextes, la segmentation de phrases, la modélisation linguistique et bien d'autres. En utilisant les instances Inf1, nous avons pu accélérer nos services pour répondre à la demande croissante tout en réduisant le coût d'inférence de plus de 50 % par rapport aux instances basées sur GPU. Nous nous dirigeons maintenant vers le développement de modèles plus grands de nouvelle génération qui nécessiteront les fonctionnalités améliorées des instances Inf2 pour répondre à la demande tout en maintenant une faible latence. Avec Inf2, nous pourrons augmenter nos modèles de 10 tout en maintenant un débit similaire, ce qui nous permettra d’offrir des niveaux de qualité encore plus élevés à nos clients.
Giovanni Giacomo, responsable NLP chez Yaraku -
Hugging Face
La mission de Hugging Face est de démocratiser une machine learning de qualité afin d’aider les développeurs de machine learning du monde entier à résoudre des problèmes concrets. Pour ce faire, il est essentiel de s’assurer que les modèles les plus récents et les plus performants s’exécutent aussi rapidement et efficacement que possible sur les meilleures puces de machine learning du cloud. Nous sommes très enthousiastes à l’idée qu’Inferentia2 puisse devenir le nouveau moyen standard de déployer des modèles d’IA génératives à grande échelle. Avec Inf1, nous avons constaté des coûts jusqu'à 70 % inférieurs à ceux des instances traditionnelles basées sur GPU, et avec Inf2, nous avons constaté une latence jusqu'à 8 fois plus faible pour les transformateurs de type Bert par rapport à Inferentia1. Avec Inferentia2, notre communauté pourra facilement adapter cette performance aux LLM à l’échelle de plus de 100 milliards de paramètres, ainsi qu’aux modèles de diffusion et de vision par ordinateur les plus récents.
-
PyTorch
PyTorch accélère le passage du prototypage de recherche aux déploiements de production pour les développeurs de machine learning. Nous avons collaboré avec l’équipe AWS pour fournir un support PyTorch natif pour les nouvelles instances Amazon EC2 Inf2 alimentées par AWS Inferentia2. Alors que de plus en plus de membres de notre communauté cherchent à déployer de grands modèles d’IA générative, nous sommes ravis de nous associer à l’équipe AWS pour optimiser l’inférence distribuée sur les instances Inf2 grâce à une connectivité NeuronLink haut débit entre les puces. Avec Inf2, les développeurs utilisant PyTorch peuvent désormais déployer facilement des LLM et des modèles de transformateurs de vision de très grande taille. En outre, les instances Inf2 apportent d’autres capacités innovantes aux développeurs PyTorch, notamment des types de données efficaces, des formes dynamiques, des opérateurs personnalisés et des arrondis stochastiques optimisés au niveau matériel, ce qui les rend tout à fait adaptées à une large adoption par la communauté PyTorch.
-
Nextira
Le défi historique des LLM, et plus généralement des applications d’IA générative au niveau des entreprises, réside dans les coûts associés à la formation et à l’exécution de modèles DL à hautes performances. Avec AWS Trainium, AWS Inferentia2 élimine les compromis financiers auxquels sont confrontés nos clients lorsqu'ils ont besoin d'une formation de haute performance. Désormais, nos clients qui recherchent des avantages en matière de formation et d'inférence peuvent obtenir de meilleurs résultats à moindre coût. Trainium et Inferentia accélèrent leur mise à l'échelle pour répondre aux exigences les plus exigeantes en matière de DL des plus grandes entreprises d'aujourd'hui. De nombreux clients de Nextira exécutant de grandes charges de travail liées à l’IA bénéficieront directement de ces nouveaux chipsets, qui accroîtront leur efficacité en termes d’économies de coûts et de performances et se traduiront par des résultats plus rapides sur leur marché.
Jason Cutrer, fondateur et PDG chez Nextira -
Amazon CodeWhisperer
Amazon CodeWhisperer est un compagnon de codage basé sur l'IA qui génère des recommandations de code en temps réel sur une seule ligne ou sur des fonctions complètes dans votre environnement de développement intégré (IDE) afin de vous aider à créer rapidement des logiciels.
Avec CodeWhisperer, nous améliorons la productivité des développeurs de logiciels en fournissant des recommandations de code à l’aide de modèles d’IA générative. Pour développer des recommandations de code très efficaces, nous avons adapté notre réseau DL à des milliards de paramètres. Nos clients ont besoin de recommandations de code en temps réel au fur et à mesure de la saisie. Les réponses à faible latence sont donc essentielles. Les grands modèles d'IA générative nécessitent un calcul de haute performance pour fournir des temps de réponse en une fraction de seconde. Avec Inf2, nous obtenons la même latence que lorsque vous exécutez CodeWhisperer lors de l'entraînement d'instances GPU optimisées pour de grandes séquences d'entrée et de sortie. Ainsi, les instances Inf2 nous aident à économiser des coûts et de l’énergie tout en offrant la meilleure expérience possible aux développeurs.
Doug Seven, directeur général chez Amazon CodeWhisperer -
Amazon Search
Le moteur de recherche de produits d'Amazon indexe des milliards de produits, répond à des milliards de requêtes de clients chaque jour et est l'un des services les plus utilisés au monde.
Je suis très enthousiaste à l’idée du lancement d’Inf2 GA. Les performances supérieures d'Inf2, associées à sa capacité à gérer des modèles plus grands avec des milliards de paramètres, en font le choix idéal pour nos services et nous permettent de découvrir de nouvelles possibilités en termes de complexité et de précision des modèles. Grâce à l'accélération et à la rentabilité considérables offertes par Inf2, leur intégration à l'infrastructure de serveur Amazon Search peut nous aider à répondre aux demandes croissantes de nos clients. Nous prévoyons de dynamiser nos nouvelles expériences d’achat en utilisant des LLM génératifs utilisant Inf2.
Trishul Chilimbi, vice-président chez Amazon Search