Por que escolher instâncias Inf2 do Amazon EC2?
As instâncias Inf2 do Amazon Elastic Compute Cloud (Amazon EC2) foram criadas especificamente para inferência de aprendizado profundo (DL). Elas oferecem alta performance com o menor custo no Amazon EC2 para modelos de inteligência artificial (IA) generativa, incluindo grandes modelos de linguagem (LLMs) e transformadores de visão. Você pode usar as instâncias Inf2 para executar suas aplicações de inferência para fazer resumos de textos, geração de código, geração de vídeo e imagem, reconhecimento de fala, personalização, detecção de fraudes e muito mais.
As instâncias Inf2 são baseadas no AWS Inferentia2, o chip do AWS Inferentia de segunda geração. As instâncias Inf2 aumentam a performance de Inf1 oferecendo performance computacional três vezes melhor, memória total do acelerador quatro vezes maior, throughput até quatro vezes maior e latência até dez vezes menor. As instâncias Inf2 são as primeiras instâncias otimizadas para inferência no Amazon EC2 a oferecer suporte à inferência distribuída do aumento da escala com conectividade de altíssima velocidade entre chips Inferentia. Agora você pode implantar modelos de forma eficiente e econômica com centenas de bilhões de parâmetros em vários chips nas instâncias Inf2.
O SDK do AWS Neuron ajuda os desenvolvedores a implantar modelos nos chips do AWS Inferentia (e a treiná-los nos chips do AWS Trainium). Ele se integra nativamente às infraestruturas como PyTorch e TensorFlow para que você possa continuar usando os fluxos de trabalho e os códigos de aplicações existentes e executá-los nas instâncias Inf2.
Benefícios
Recursos
Detalhes do produto
Tamanho de instância | Chips Inferentia2 | Acelerador Memória (GB) |
vCPU | Memória (GiB) |
Local Armazenamento |
Inter-Chip Interconexão |
Rede Largura de banda (Gbps) |
EBS Largura de banda (Gbps) |
Preço sob demanda | Instâncias reservadas de 1 ano | Instâncias reservadas de 3 anos |
inf2.xlarge | 1 | 32 | 4 | 16 | Somente EBS | N/D | Até 15 | Até 10 | USD 0,76 | USD 0,45 | USD 0,30 |
inf2.8xlarge | 1 | 32 | 32 | 128 | Somente EBS | N/D | Até 25 | 10 | USD 1,97 | USD 1,81 | USD 0,79 |
inf2.24xlarge | 6 | 192 | 96 | 384 | Somente EBS | Sim | 50 | 30 | USD 6,49 | USD 3,89 | USD 2,60 |
inf2.48xlarge | 12 | 384 | 192 | 768 | Somente EBS | Sim | 100 | 60 | USD 12,98 | USD 7,79 | USD 5,19 |
Depoimentos de clientes e parceiros
Aqui estão alguns exemplos de como clientes e parceiros alcançaram suas metas de negócios com as instâncias Inf2 do Amazon EC2.
-
Leonardo.ai
“Nossa equipe na Leonardo aproveita a IA generativa para permitir que profissionais criativos e entusiastas produzam recursos visuais com qualidade, velocidade e consistência de estilo incomparáveis. Quanto ao preço/desempenho do AWS Inf2, utilizando o AWS Inf2 conseguimos reduzir nossos custos em 80%, sem sacrificar o desempenho, alterando fundamentalmente o valor que podemos oferecer aos clientes, fazendo com que nossos atributos mais avançados ficassem com um preço mais acessível. Isso também alivia as preocupações com a disponibilidade de custo e capacidade para nossos serviços auxiliares de IA, que são cada vez mais importantes à medida que crescemos e escalamos. É uma tecnologia capacitadora fundamental para nós à medida que continuamos a desafiar os limites do que é possível com a IA generativa, permitindo uma nova era de criatividade e poder expressivo para nossos usuários.
Pete Werner, chefe de IA, Leonardo.ai -
Runway
Na Runway, nosso pacote de AI Magic Tools permite que os usuários gerem e editem conteúdo como nunca antes. Estamos constantemente ultrapassando os limites do que é possível com a criação de conteúdo baseada em IA e, à medida que nossos modelos de IA se tornam mais complexos, os custos de infraestrutura subjacentes para executar esses modelos em grande escala podem se tornar altos. Por meio da nossa colaboração com as instâncias Inf2 do Amazon EC2 desenvolvidas pelo AWS Inferentia, podemos executar alguns de nossos modelos com throughput até duas vezes maior do que instâncias comparáveis baseadas em GPU. Essa inferência de alta performance e baixo custo nos permite introduzir mais recursos, implantar modelos mais complexos e, por fim, oferecer uma experiência melhor para milhões de criadores que usam a Runway.
Cristóbal Valenzuela, cofundador e CEO, Runway -
Qualtrics
A Qualtrics projeta e desenvolve software de gerenciamento de experiências.
Na Qualtrics, nosso foco é criar tecnologia que preencha lacunas de experiência para clientes, funcionários, marcas e produtos. Para isso, estamos desenvolvendo modelos complexos de DL multimodal e multitarefa para lançar novos atributos, como classificação de texto, marcação de sequências, análise de discurso, extração de frases-chave, extração de tópicos, agrupamento e compreensão de conversas de ponta a ponta. À medida que utilizamos esses modelos mais complexos em mais aplicações, o volume de dados não estruturados aumenta e precisamos de mais soluções otimizadas para inferência de performance que possam atender a essas demandas, como as instâncias Inf2, para oferecer as melhores experiências aos nossos clientes. Estamos entusiasmados com as novas instâncias Inf2, pois elas não só nos permitirão alcançar maiores throughputs e reduzir significativamente a latência, mas também introduzir recursos como inferência distribuída e suporte aprimorado ao formato de entrada dinâmico, o que nos ajudará a escalar para atender às necessidades de implantação à medida que avançamos para modelos grandes e mais complexos.
Aaron Colak, diretor de core machine learning, Qualtrics -
Finch Computing
A Finch Computing é uma empresa de tecnologia de linguagem natural que fornece aplicações de inteligência artificial para clientes governamentais, de serviços financeiros e integradores de dados.
Para atender às necessidades de processamento de linguagem natural em tempo real dos nossos clientes, desenvolvemos modelos de DL de última geração que escalam para grandes workloads de produção. Precisamos fornecer transações de baixa latência e obter altas throughputs para processar feeds de dados globais. Já migramos muitas workloads de produção para instâncias Inf1 e obtivemos uma redução de 80% no custo em relação a GPUs. Agora, estamos desenvolvendo modelos maiores e mais complexos que promovem um significado mais profundo e esclarecedor do texto escrito. Muitos de nossos clientes precisam acessar esses insights em tempo real, e a performance das instâncias Inf2 nos ajudará a oferecer menor latência e maior throughput em relação às instâncias Inf1. Com as melhorias de performance e os novos atributos das instâncias Inf2, como suporte para tamanhos dinâmicos de entrada, estamos melhorando o custo-benefício, elevando a experiência do cliente em tempo real e ajudando nossos clientes a obter novos insights de seus dados.
Franz Weckesser, arquiteto chefe, Finch Computing -
Money Forward Inc.
A Money Forward, Inc. presta serviços a empresas e indivíduos com uma plataforma financeira aberta e justa. Como parte dessa plataforma, a HiTTO Inc., empresa do grupo Money Forward, oferece um serviço de chatbot de IA, que usa modelos de processamento de linguagem natural (PLN) personalizados para abordar diversas necessidades dos seus clientes corporativos.
Lançamos um serviço de chatbot de IA em grande escala nas instâncias Inf1 do Amazon EC2 e reduzimos nossa latência de inferência em 97% em relação a instâncias comparáveis baseadas em GPU, além de reduzir os custos. Ficamos muito satisfeitos em ver mais melhorias na performance em nossos resultados de testes iniciais nas instâncias Inf2 do Amazon EC2. Usando o mesmo modelo personalizado de PLN, a Inf2 da AWS conseguiu reduzir em dez vezes a latência em relação à Inf1. À medida que adotamos modelos maiores de vários bilhões de parâmetros, as instâncias Inf2 nos dão a confiança de que podemos continuar oferecendo aos nossos clientes uma experiência de usuário de ponta a ponta superior.
Takuya Nakade, diretor de tecnologia, Money Forward Inc. -
Fileread
Na Fileread.ai, estamos criando soluções para tornar a interação com seus documentos tão fácil quanto fazer perguntas, permitindo que os usuários encontrem o que procuram em todos os documentos e obtenham as informações certas com mais rapidez. Desde a mudança para a nova instância Inf2 do EC2, observamos uma melhoria significativa em nossos recursos de inferência de PLN. Só a economia de custos já foi um divisor de águas para nós, permitindo alocar recursos com mais eficiência sem sacrificar a qualidade. Reduzimos nossa latência de inferência em 33% e aumentamos a throughput em 50%, oferecendo aos nossos clientes entregas mais rápidas. Nossa equipe ficou impressionada com a velocidade e a performance das instâncias Inf2 em comparação com as instâncias G5 mais antigas, e está claro que esse é o futuro da implantação de modelos de PLN.
Daniel Hu, CEO, Fileread -
Yaraku
Na Yaraku, nossa missão é criar a infraestrutura que ajude as pessoas a se comunicarem rompendo as barreiras linguísticas. Nosso principal produto, o YarakuZen, permite que qualquer pessoa, de tradutores profissionais a indivíduos monolíngues, traduza e edite textos e documentos com confiança. Para apoiar esse processo, oferecemos uma ampla variedade de ferramentas sofisticadas baseadas em modelos de DL, abrangendo tarefas como tradução, alinhamento de palavras em colunas, segmentação de frases, modelagem de linguagem e muitas outras. Usando as instâncias Inf1, conseguimos acelerar nossos serviços para atender à crescente demanda e, ao mesmo tempo, reduzir o custo de inferência em mais de 50% em comparação às instâncias baseadas em GPU. Agora estamos avançando para o desenvolvimento de modelos maiores de próxima geração que exigirão os recursos aprimorados das instâncias Inf2 para atender à demanda e, ao mesmo tempo, manter a baixa latência. Com as instâncias Inf2, poderemos aumentar a escala verticalmente de nossos modelos em dez vezes, mantendo um throughput semelhante, o que nos permite entregar níveis ainda mais altos de qualidade aos nossos clientes.
Giovanni Giacomo, líder de PLN, Yaraku -
Hugging Face
A missão da Hugging Face é democratizar o bom ML para ajudar os desenvolvedores de ML em todo o mundo a resolver problemas do mundo real. E a chave para isso é garantir que os melhores e mais recentes modelos funcionem da forma mais rápida e eficiente possível nos melhores chips de ML na nuvem. Estamos muito entusiasmados com o potencial da Inferentia2 de se tornar a nova forma padrão de implantar modelos de IA generativa em grande escala. Com o Inf1, observamos um custo até 70% menor do que as instâncias tradicionais baseadas em GPU e, com a Inf2, observamos uma latência até oito vezes menor para transformadores do tipo BERT em comparação com a Inferentia1. Com o Inferentia2, nossa comunidade poderá escalar facilmente essa performance para LLMs na escala de mais de 100 bilhões de parâmetros, e também para os modelos mais recentes de difusão e visão computacional.
-
PyTorch
A PyTorch acelera o caminho da prototipagem de pesquisa a implantações de produção para desenvolvedores de ML. Colaboramos com a equipe da AWS para fornecer suporte nativo à PyTorch para as novas instâncias Inf2 do Amazon EC2 baseadas no AWS Inferentia2. À medida que mais membros da nossa comunidade buscam implantar grandes modelos de IA generativa, estamos entusiasmados com a parceria com a equipe da AWS para otimizar a inferência distribuída nas instâncias Inf2 com conectividade NeuronLink de alta velocidade entre chips. Com Inf2, os desenvolvedores que usam PyTorch agora podem implantar facilmente LLMs ultragrandes e modelos transformadores de visão. Além disso, as instâncias Inf2 trazem outros recursos inovadores para os desenvolvedores da PyTorch, incluindo tipos de dados eficientes, formas dinâmicas, operadores personalizados e arredondamento estocástico otimizado para hardware, tornando-as adequadas para ampla adoção pela comunidade da PyTorch.
-
Nextira
O desafio histórico com LLMs e, mais amplamente, com aplicações de IA generativa em nível corporativo, são os custos associados ao treinamento e à execução de modelos de DL de alta performance. Junto com o AWS Trainium, o AWS Inferentia2 remove as concessões financeiras que nossos clientes fazem quando precisam de treinamento de alta performance. Agora, nossos clientes que buscam vantagens em treinamento e inferência podem obter melhores resultados com menor custo. O Trainium e o Inferentia aceleram a escala para atender até mesmo aos requisitos de DL mais exigentes das maiores empresas da atualidade. Muitos clientes da Nextira que executam grandes workloads de IA se beneficiarão diretamente com esses novos chipsets, aumentando a eficiência na redução de custos e na performance, além de levar a resultados mais rápidos em seus mercados.
Jason Cutrer, fundador e CEO, Nextira -
Amazon CodeWhisperer
O Amazon CodeWhisperer é um complemento de codificação de IA que gera recomendações de código de linha única ou de função completa em tempo real no seu ambiente de desenvolvimento integrado (IDE) para ajudar você a criar software rapidamente.
Com o CodeWhisperer, estamos melhorando a produtividade dos desenvolvedores de software fornecendo recomendações de código usando modelos de IA generativa. Para desenvolver recomendações de código altamente eficazes, escalamos nossa rede de DL para bilhões de parâmetros. Nossos clientes precisam de recomendações de código em tempo real enquanto digitam, portanto, respostas de baixa latência são essenciais. Os modelos de IA generativos de grande porte exigem computação de alta performance para fornecer tempos de resposta em uma fração de segundo. Com a Inf2, estamos oferecendo a mesma latência da execução do CodeWhisperer no treinamento de instâncias de GPU otimizadas para grandes sequências de entrada e saída. Dessa forma, as instâncias Inf2 estão nos ajudando a reduzir custos e economizar energia, ao mesmo tempo em que oferecem a melhor experiência possível para os desenvolvedores.
Doug Seven, gerente geral, Amazon CodeWhisperer -
Amazon Search
O mecanismo de pesquisa de produtos da Amazon indexa bilhões de produtos, atende a bilhões de consultas de clientes diariamente e é um dos serviços mais usados no mundo.
Estou muito entusiasmado com o lançamento da Inf2 GA. A performance superior da Inf2, juntamente com sua capacidade de lidar com modelos maiores com bilhões de parâmetros, a torna a escolha perfeita para nossos serviços e nos permite desbloquear novas possibilidades em termos de complexidade e precisão do modelo. Com a significativa aceleração e a eficiência de custos oferecidas pela Inf2, integrá-las à infraestrutura de atendimento do Amazon Search poderá nos ajudar a atender às crescentes demandas de nossos clientes. Planejamos potencializar nossas novas experiências de compra usando LLMs generativos usando instâncias Inf2.
Trishul Chilimbi, vice-presidente, Amazon Search