Istanze Inf2 di Amazon EC2

Prestazioni elevate a costi più bassi in Amazon EC2 per l'inferenza dell'IA generativa

Perché scegliere le istanze Amazon EC2 Inf2?

Le istanze Inf2 di Amazon Elastic Compute Cloud (Amazon EC2) sono create appositamente per l'inferenza di deep learning (DL). Offrono prestazioni elevate al costo più basso in Amazon EC2 per modelli di intelligenza artificiale (IA) generativa, inclusi modelli di linguaggio di grandi dimensioni (LLM) e transformer di visione. Puoi utilizzare le istanze Inf2 per eseguire le applicazioni di inferenza per il riepilogo del testo, la generazione di codice, la generazione di video e immagini, il riconoscimento vocale, la personalizzazione, il rilevamento di frodi e altro ancora.

Le istanze Inf2 sono alimentate da AWS Inferentia2, il chip AWS Inferentia di seconda generazione. Le istanze Inf2 migliorano le prestazioni di Inf1 offrendo prestazioni di elaborazione 3 volte superiori, una memoria di accelerazione totale 4 volte più grande, una velocità di trasmissione effettiva fino a 4 volte superiore e una latenza fino a 10 volte inferiore. Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 e supportano l'inferenza distribuita su scala con connettività ad altissima velocità tra i chip Inferentia. Ora puoi implementare in modo efficiente ed economico modelli con centinaia di miliardi di parametri su più chip su istanze Inf2.

L'SDK di AWS Neuron aiuta gli sviluppatori a implementare i modelli sui chip AWS Inferentia e ad addestrarli sui chip AWS Trainium. Si integra in modo nativo con i framework come PyTorch e TensorFlow, in modo che sia possibile continuare a utilizzare i flussi di lavoro e il codice delle applicazioni esistenti ed eseguirli sulle istanze Inf2.

Vantaggi

Le istanze Inf2 sono le prime istanze ottimizzate per l'inferenza in Amazon EC2 a supportare l'inferenza distribuita su larga scala. Ora puoi distribuire in modo efficiente i modelli con centinaia di miliardi di parametri su più chip Inferentia su istanze Inf2, utilizzando la connettività ad altissima velocità tra i chip.

Le istanze Inf2 sono progettate per offrire prestazioni elevate al minor costo in Amazon EC2 per le implementazioni DL. Offrono un throughput fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto alle istanze Inf1 di Amazon EC2. Le istanze Inf2 offrono un rapporto tra prestazioni e prezzo superiore fino al 40% rispetto ad altre istanze Amazon EC2 comparabili.

Usa l'SDK AWS Neuron per estrarre le prestazioni complete delle istanze Inf2. Con Neuron, puoi utilizzare i tuoi framework esistenti come PyTorch e TensorFlow e ottenere prestazioni ottimizzate fin dall'inizio per i modelli nei repository più diffusi come Hugging Face. Neuron supporta le integrazioni di runtime con strumenti di servizio come TorchServe e TensorFlow Serving. Inoltre, aiuta a ottimizzare le prestazioni con profili integrati e strumenti di debug come Neuron-Top e si integra in strumenti di visualizzazione più diffusi come TensorBoard.

Le istanze Inf2 offrono un rapporto prestazioni/watt superiore fino al 50% rispetto ad altre istanze Amazon EC2 comparabili. Queste istanze e i chip Inferentia2 sottostanti utilizzano processi avanzati e ottimizzazioni hardware e software per offrire un'elevata efficienza energetica durante l'esecuzione di modelli DL su larga scala. Utilizza le istanze Inf2 per raggiungere i tuoi obiettivi di sostenibilità durante l'implementazione di modelli di dimensioni ultra-grandi.

Caratteristiche

Le istanze Inf2 sono alimentate da un massimo di 12 chip AWS Inferentia2 connessi con NeuronLink ad altissima velocità per comunicazioni collettive semplificate. Offrono fino a 2,3 petaflop di potenza di calcolo, throughput fino a 4 volte superiore e una latenza fino a 10 volte inferiore rispetto alle istanze Inf1.

Per adattarsi ai modelli DL di grandi dimensioni, le istanze Inf2 offrono fino a 384 GB di memoria acceleratrice condivisa (32 GB HBM in ogni chip Inferentia2, 4 volte maggiore dell'Inferentia di prima generazione) con 9,8 TB/s di larghezza di banda di memoria totale (10 volte più veloce rispetto a Inferentia di prima generazione).

Per una comunicazione rapida tra i chip Inferentia2, le istanze Inf2 supportano 192 GB/s di NeuronLink, un'interconnessione ad altissima velocità e non bloccante. Inf2 è l'unica istanza ottimizzata per l'inferenza a offrire questa interconnessione, una funzionalità disponibile solo nelle istanze di formazione più costose. Per i modelli di grandi dimensioni che non rientrano in un singolo chip, i dati fluiscono direttamente tra i chip con NeuronLink, bypassando completamente la CPU. Con NeuronLink, Inf2 supporta un'inferenza distribuita più rapida e migliora il throughput e la latenza.

Inferentia2 supporta FP32, TF32, BF16, FP16, UINT8 e il nuovo tipo di dati configurabile FP8 (cFP8). AWS Neuron può acquisire i modelli FP32 ed FP16 ad alta precisione e li trasmette automaticamente a tipi di dati a bassa precisione, ottimizzando al contempo precisione e prestazioni. La trasmissione automatica (autocasting) riduce i tempi di commercializzazione eliminando la necessità di riqualificazione a bassa precisione e consentendo un'inferenza a prestazioni più elevate con tipi di dati più piccoli.

Per supportare la rapida innovazione DL, le istanze Inf2 presentano diverse novità che le rendono flessibili ed estensibili per implementare modelli DL in continua evoluzione. Le istanze Inf2 dispongono di ottimizzazioni hardware e supporto software per forme di input dinamiche. Per consentire il supporto di nuovi operatori in futuro, supportano operatori personalizzati scritti in C++. Supportano inoltre l'arrotondamento stocastico, un metodo di arrotondamento probabilistico per ottenere prestazioni elevate e una maggiore precisione rispetto alle modalità di arrotondamento tradizionali. 

Dettagli del prodotto

Dimensioni istanza Chip Inferentia2 Acceleratore
Memoria
(GB)
vCPU Memoria
(GiB)
Locale
Archiviazione
Interconnessione
tra chip
Rete
Larghezza di banda
(Gbps)
EBS
Larghezza di banda
(Gbps)
Prezzo on demand Istanza riservata per 1 anno Istanza riservata per 3 anni
inf2.xlarge 1 32 4 16 Solo EBS N/D Fino a 15 Fino a 10 0,76 USD 0,45 USD 0,30 USD
inf2.8xlarge 1 32 32 128 Solo EBS N/D Fino a 25 10 1,97 USD 1,81 USD 0,79 USD
inf2.24xlarge 6 192 96 384 Solo EBS 50 30 6,49 USD 3,89 USD 2,60 USD
inf2.48xlarge 12 384 192 768 Solo EBS 100 60 12,98 USD 7,79 USD 5,19 USD

Testimonianze dei partner e dei clienti

Ecco alcuni esempi di come clienti e partner hanno raggiunto i loro obiettivi aziendali con le istanze Amazon EC2 Inf2.

  • Leonardo.ai

    Il nostro team di Leonardo sfrutta l'IA generativa per consentire ai professionisti e agli appassionati creativi di produrre risorse visive che vantano qualità, velocità e coerenza stilistica senza pari. Il rapporto prezzo/prestazioni di AWS Inf2 Utilizzando AWS Inf2 siamo in grado di ridurre i nostri costi dell'80%, senza sacrificare le prestazioni, cambiando radicalmente la proposta di valore che possiamo offrire ai clienti, abilitando le nostre funzionalità più avanzate a un prezzo più accessibile. Inoltre, allevia le preoccupazioni relative ai costi e alla disponibilità della capacità per i nostri servizi di intelligenza artificiale ausiliari, che sono sempre più importanti man mano che cresciamo e dimensioniamo. È una tecnologia fondamentale per consentirci di continuare a superare i limiti di ciò che è possibile realizzare con l'IA generativa, permettendo ai nostri utenti di accedere a una nuova epoca di creatività e capacità espressiva.

    Pete Werner, Head of AI presso Leonardo.Ai
  • Runway

    La suite di AI Magic Tools di Runway consente ai nostri utenti di generare e modificare contenuti come mai prima d'ora. Stiamo costantemente superando i limiti di ciò che è possibile fare con la creazione di contenuti basata sull'intelligenza artificiale e, man mano che i nostri modelli di intelligenza artificiale diventano più complessi, i costi di infrastruttura alla base dell'esecuzione di questi modelli su larga scala possono diventare costosi. Grazie alla nostra collaborazione con le istanze Inf2 di Amazon EC2 basate su AWS Inferentia, siamo in grado di eseguire alcuni dei nostri modelli con una velocità di trasmissione effettiva fino a 2 volte superiore rispetto a istanze simili basate su GPU. Questa inferenza ad alte prestazioni e a basso costo ci consente di introdurre più funzionalità, implementare modelli più complessi e, in definitiva, offrire un'esperienza migliore ai milioni di creatori che utilizzano Runway.

    Cristóbal Valenzuela, cofondatore e CEO presso Runway
  • Qualtrics

    Qualtrics progetta e sviluppa software per la gestione delle esperienze.

    In Qualtrics, il nostro obiettivo è definire una tecnologia che colmi le lacune di esperienza per clienti, dipendenti, marchi e prodotti. A tal fine, stiamo sviluppando modelli di deep learning multi-task e multi-modali complessi per lanciare nuove funzionalità, come la classificazione dei testi, il tagging delle sequenze, l'analisi del discorso, l'estrazione di frasi chiave, l'estrazione di argomenti, il clustering e la comprensione delle conversazioni end-to-end. Con l'utilizzo di questi modelli più complessi in un numero maggiore di applicazioni, il volume dei dati non strutturati aumenta e abbiamo bisogno di soluzioni ottimizzate per l'inferenza con migliori prestazioni in grado di soddisfare tali richieste, come le istanze Inf2, per offrire esperienze soddisfacenti ai nostri clienti. Siamo entusiasti delle nuove istanze Inf2 perché non solo ci permettono di raggiungere un throughput più elevato, riducendo drasticamente la latenza, ma introducono anche funzionalità come l'inferenza distribuita e il supporto avanzato per la forma dinamica degli input, che ci aiuteranno a scalare per soddisfare le esigenze di implementazione mentre passiamo a modelli più grandi e complessi.

    Aaron Colak, Head of Core Machine Learning presso Qualtrics
  • Finch Computing

    Finch Computing è un'azienda di tecnologia del linguaggio naturale che fornisce applicazioni di intelligenza artificiale a clienti collegati a enti pubblici, servizi finanziari e integratori di dati.

    Per soddisfare le esigenze dei nostri clienti in materia di elaborazione del linguaggio naturale in tempo reale, sviluppiamo modelli di DL all'avanguardia, in grado di scalare a carichi di lavoro di produzione di grandi dimensioni. Dobbiamo fornire transazioni a bassa latenza e raggiungere una velocità di trasmissione effettiva elevata per elaborare feed di dati globali. Abbiamo già migrato molti carichi di lavoro di produzione su istanze Inf1 e abbiamo ottenuto una riduzione dei costi dell'80% rispetto alle GPU. Ora stiamo sviluppando modelli più grandi e complessi che consentono di ottenere un significato più profondo e dettagliato dal testo scritto. Molti dei nostri clienti hanno bisogno di accedere a queste informazioni in tempo reale e le prestazioni delle istanze Inf2 ci aiutano a garantire una latenza inferiore e una velocità di trasmissione effettiva superiore rispetto alle istanze Inf1. Grazie ai miglioramenti delle prestazioni e alle nuove funzionalità offerte da Inf2, come il supporto per gli input di dimensioni dinamiche, stiamo migliorando la nostra efficienza in termini di costi e l'esperienza dei clienti in tempo reale, aiutandoli a ricavare nuovi approfondimenti dai loro dati.

    Franz Weckesser, Chief Architect presso Finch Computing
  • Money Forward Inc.

    Money Forward, Inc. offre ad aziende e privati una piattaforma finanziaria aperta ed equa. Nell'ambito di tale piattaforma, HiTTO Inc., un'azienda del gruppo Money Forward, offre un servizio di chatbot IA, che utilizza modelli di elaborazione del linguaggio naturale (NLP) su misura per gestire le diverse esigenze dei clienti aziendali.

    Abbiamo lanciato un servizio di chatbot basato sull'IA su larga scala sulle istanze Amazon EC2 Inf1 e ridotto la nostra latenza di inferenza del 97% rispetto a istanze analoghe basate su GPU, riducendo al contempo i costi. Siamo stati molto lieti di vedere ulteriori miglioramenti delle prestazioni nei risultati dei nostri test iniziali sulle istanze Inf2 di Amazon EC2. Utilizzando lo stesso modello NLP personalizzato, AWS Inf2 è riuscito a ridurre ulteriormente la latenza di 10 volte rispetto a Inf1. Mentre passiamo a modelli più grandi con svariati miliardi di parametri, Inf2 ci dà la certezza di poter continuare a fornire ai nostri clienti un'esperienza utente end-to-end superiore.

    Takuya Nakade, CTO presso Money Forward Inc.
  • Fileread

    In Fileread.ai stiamo creando soluzioni per rendere l'interazione con i documenti tanto semplice quanto porre domande, consentendo agli utenti di trovare ciò che cercano tra tutti i loro documenti e di ottenere le informazioni giuste più rapidamente. Da quando siamo passati alla nuova istanza Inf2 di EC2, abbiamo visto un miglioramento significativo nelle nostre capacità di inferenza NLP. I soli risparmi sui costi sono stati un punto di svolta per noi, consentendoci di allocare le risorse in modo più efficiente senza sacrificare la qualità. Abbiamo ridotto la latenza di inferenza del 33% e aumentato la velocità di trasmissione effettiva del 50%, soddisfacendo i nostri clienti con tempi di consegna più rapidi. Il nostro team è rimasto sbalordito dalla velocità e dalle prestazioni di Inf2 rispetto alle precedenti istanze G5, ed è chiaro che questo è il futuro nell'implementazione dei modelli di NLP.

    Daniel Hu, CEO presso Fileread
  • Yaraku

    La missione di Yaraku è costruire l'infrastruttura che aiuti le persone a comunicare al di là delle barriere linguistiche. Il nostro prodotto di punta, YarakuZen, consente a chiunque, dai traduttori professionisti alle persone monolingue, di tradurre e modificare testi e documenti con sicurezza. Per supportare questo processo, offriamo una vasta gamma di strumenti sofisticati basati su modelli di deep learning, che coprono attività come traduzione, allineamento di parole bitext, segmentazione delle frasi, modellazione linguistica e molte altre. Grazie alle istanze Inf1, siamo riusciti a velocizzare i nostri servizi per soddisfare la crescente domanda riducendo al contempo i costi di inferenza di oltre il 50% rispetto alle istanze basate su GPU. Stiamo ora procedendo allo sviluppo di modelli più grandi di nuova generazione che richiederanno le funzionalità avanzate delle istanze Inf2 per soddisfare la domanda mantenendo una bassa latenza. Con Inf2, saremo in grado di aumentare verticalmente la scalabilità dei nostri modelli di 10 volte mantenendo un throughput simile, così potremo offrire livelli di qualità ancora più elevati ai nostri clienti.

    Giovanni Giacomo, NLP Lead presso Yaraku
  • Hugging Face

    La missione di Hugging Face è quella di democratizzare il machine learning per aiutare gli sviluppatori di ML di tutto il mondo a risolvere problemi nel mondo reale. E la chiave per farlo è garantire che i modelli più recenti e migliori vengano eseguiti nel modo più rapido ed efficiente possibile sui migliori chip ML del cloud. Siamo incredibilmente entusiasti del potenziale che Inferentia2 diventi il nuovo modo standard per implementare modelli di IA generativa su larga scala. Con Inf1, abbiamo registrato una riduzione dei costi fino al 70% rispetto alle tradizionali istanze basate su GPU e con Inf2 abbiamo riscontrato una latenza fino a 8 volte inferiore per i Transformers simili a BERT rispetto a Inferentia1. Con Inferentia2, la nostra community sarà in grado di adattare facilmente queste prestazioni agli LLM con oltre 100 miliardi di parametri e ai più recenti modelli di diffusione e visione artificiale.

  • PyTorch

    PyTorch accelera il percorso dalla prototipazione di ricerca alle implementazioni di produzione per gli sviluppatori di ML. Abbiamo collaborato con il team AWS per fornire supporto PyTorch nativo per le nuove istanze Amazon EC2 Inf2 basate su AWS Inferentia2. Poiché sempre più membri della nostra community cercano di implementare modelli di IA generativa di grandi dimensioni, siamo entusiasti di collaborare con il team AWS per ottimizzare l'inferenza distribuita sulle istanze Inf2 con connettività NeuronLink ad alta velocità tra i chip. Con Inf2, gli sviluppatori che utilizzano PyTorch possono ora implementare facilmente LLM e modelli di trasformatori di visione di grandi dimensioni. Inoltre, le istanze Inf2 offrono agli sviluppatori di PyTorch altre funzionalità innovative, tra cui tipi di dati efficienti, forme dinamiche, operatori personalizzati e arrotondamento stocastico ottimizzato per l'hardware, che le rendono largamente adottabili da parte della comunità PyTorch.

  • Nextira

    La sfida storica con gli LLM e, più in generale, con le applicazioni di IA generativa di livello aziendale, sono i costi associati all'addestramento e all'esecuzione di modelli di DL ad alte prestazioni. Oltre ad AWS Trainium, AWS Inferentia2 rimuove i compromessi finanziari che i nostri clienti fanno quando richiedono una formazione ad alte prestazioni. Ora, i nostri clienti che cercano vantaggi nella formazione e nell'inferenza possono ottenere risultati migliori spendendo meno denaro. Trainium e Inferentia accelerano la scalabilità per soddisfare anche i requisiti DL più esigenti per le aziende più grandi di oggi. Molti clienti di Nextira che eseguono carichi di lavoro di IA di grandi dimensioni trarranno vantaggi diretti da questi nuovi chipset, aumentando l'efficienza in termini di risparmio sui costi e prestazioni e ottenendo risultati più rapidi nei loro mercati.

    Jason Cutrer, fondatore e CEO presso Nextira
  • Amazon CodeWhisperer

    Amazon CodeWhisperer è un complemento di codifica IA che genera consigli di codice a riga singola o completa in tempo reale nel tuo ambiente di sviluppo integrato (IDE) per aiutarti a creare rapidamente software.

    Con CodeWhisperer stiamo migliorando la produttività degli sviluppatori di software, che ricevono consigli sul codice grazie a modelli di IA generativa. Per sviluppare raccomandazioni di codice altamente efficaci, abbiamo adattato la nostra rete DL a miliardi di parametri. I nostri clienti hanno bisogno di consigli sul codice in tempo reale durante la digitazione, quindi le risposte a bassa latenza sono fondamentali. I modelli di intelligenza artificiale generativa di grandi dimensioni richiedono un'elaborazione ad alte prestazioni per fornire tempi di risposta in una frazione di secondo. Con Inf2, offriamo la stessa latenza dell'esecuzione di CodeWhisperer sull'addestramento di istanze GPU ottimizzate per sequenze di input e output di grandi dimensioni. Pertanto, le istanze Inf2 ci aiutano a risparmiare costi ed energia e di offrire al contempo la migliore esperienza possibile agli sviluppatori.

    Doug Seven, General Manager presso Amazon CodeWhisperer
  • Amazon Search

    Il motore di ricerca di prodotti di Amazon indicizza miliardi di prodotti, soddisfa ogni giorno miliardi di domande dei clienti ed è uno dei servizi più utilizzati al mondo.

    Sono super entusiasta del lancio della disponibilità generale di Inf2. Le prestazioni superiori di Inf2, insieme alla sua capacità di gestire modelli più grandi con miliardi di parametri, lo rendono la scelta perfetta per i nostri servizi e ci consentono di sbloccare nuove possibilità in termini di complessità e precisione dei modelli. Con la notevole velocità e l'efficienza in termini di costi offerte da Inf2, l'integrazione nell'infrastruttura di servizio di Amazon Search può aiutarci a soddisfare le crescenti richieste dei nostri clienti. Stiamo pianificando di potenziare le nostre nuove esperienze di acquisto utilizzando LLM generativi basati su Inf2.

    Trishul Chilimbi, VP presso Amazon Search

Nozioni di base

Distribuisci modelli su istanze Inf2 più facilmente utilizzando Amazon SageMaker per ridurre significativamente i costi di distribuzione dei modelli ML e aumentare le prestazioni senza la necessità di gestire l'infrastruttura. SageMaker è un servizio completamente gestito e si integra con gli strumenti MLOps. Pertanto, è possibile scalare l'implementazione dei modelli, gestire i modelli in modo più efficace in produzione e ridurre il carico operativo.

AWS Deep Learning AMI (DLAMI) fornisce ai professionisti e agli esperti di ML l'infrastruttura e gli strumenti necessari per velocizzare i processi di deep learning nel cloud, su qualsiasi scala. I driver AWS Neuron sono preconfigurati in DLAMI per distribuire i modelli di deep learning in modo ottimale sulle istanze Inf2.

Adesso puoi implementare istanze Inf2 in Amazon Elastic Kubernetes Service (Amazon EKS), il servizio Kubernetes completamente gestito, e in Amazon Elastic Container Service (Amazon ECS), il servizio di orchestrazione di container completamente gestito. Neuron è disponibile anche preinstallato in Container AWS per il Deep Learning. Per saperne di più sull'esecuzione di container sulle istanze Inf2, consulta i tutorial sui container Neuron.