Por que escolher instâncias Inf1 do Amazon EC2?
Empresas de vários setores estão buscando transformação com tecnologia de inteligência artificial para orientar a inovação empresarial, aprimorar a experiência do cliente e processar melhorias. Os modelos de machine learning (ML) que alimentam as aplicações de IA estão se tornando cada vez mais complexos, resultando no aumento de custos de infraestrutura de computação básica. Muitas vezes, até 90% do gasto com infraestrutura para desenvolver e executar aplicações de ML é usado na inferência. Os clientes buscam por soluções de infraestrutura econômicas para implantar suas aplicações de ML na produção.
As instâncias Inf1 do Amazon EC2 oferecem inferência de ML de alta performance e baixo custo. Elas entregam um throughput até 2,3 vezes maior e um custo até 70% menor por inferência em comparação com as instâncias do Amazon EC2. As instâncias Inf1 são criadas do zero para dar suporte a aplicações de inferência de ML. Elas incluem até 16 chips do AWS Inferentia, chips de inferência de ML de alta performance projetados e desenvolvidos pela AWS. Além disso, as instâncias Inf1 incluem processadores Intel Xeon Scalable da segunda geração e redes de até 100 Gbps para entregar inferência com alto throughput.
Os clientes podem usar instâncias Inf1 para executar aplicações de inferência de ML em grande escala, como pesquisa, mecanismos de recomendação, visão computacional, reconhecimento de fala, processamento de linguagem natural (PLN), personalização e detecção de fraude.
Os desenvolvedores podem implantar seus modelos de ML em instâncias Inf1 usando o SDK do AWS Neuron, que está integrado a frameworks conhecidos de ML, como TensorFlow, PyTorch e Apache MXNet. Eles podem continuar usando os mesmos fluxos de trabalho de ML e migrar aplicações facilmente para instâncias Inf1 com alterações mínimas no código e sem depender de soluções específicas de um fornecedor.
Comece facilmente com instâncias Inf1 usando o Amazon SageMaker, as AMIs de deep learning da AWS (DLAMI) que vêm pré-configuradas com o Neuron SDK, ou o Amazon Elastic Container Service (Amazon ECS) ou o Amazon Elastic Kubernetes Service (Amazon EKS) para aplicações de ML em contêineres.
Instâncias Inf1 do Amazon EC2
Benefícios
Recursos
Depoimentos de clientes e parceiros
Aqui estão alguns exemplos de como clientes e parceiros alcançaram suas metas de negócios com as instâncias Inf1 do Amazon EC2.
-
Snap Inc.
Incorporamos ML a vários aspectos do Snapchat, e explorar a inovação nessa área é a principal prioridade. Depois que conhecemos o Inferentia, começamos a colaborar com a AWS para adotar instâncias Inf1/Inferentia para nos ajudar com a implantação de ML, inclusive sobre performance e custo. Começamos com nossos modelos de recomendação e estamos ansiosos para adotar mais modelos com as instâncias Inf1 no futuro.
Nima Khajehnouri, vice-presidente de engenharia, Snap Inc. -
Sprinklr
A plataforma Unified Customer Experience Management orientada por IA da Sprinklr (Unified-CXM) permite que as empresas coletem e traduzam o feedback do cliente em insights acionáveis, em tempo real, por meio de vários canais. Isso resulta em uma resolução proativa de problemas, no aperfeiçoamento do desenvolvimento de produtos, no aprimoramento do marketing de conteúdo, em um melhor atendimento ao cliente e muito mais. Com a instância Inf1 do Amazon EC2, conseguimos melhorar significativamente a performance de um de nossos modelos de PLN e melhorar a performance de um de nossos modelos de visão computacional. Estamos ansiosos para continuar usando as instâncias Inf1 do Amazon EC2 para melhor atender nossos clientes globais.
Vasant Srinivasan, vice-presidente sênior de Engrenharia do Produto na Sprinklr -
Finch Computing
Nosso produto de PLN de última geração, Finch for Text, oferece aos usuários recursos para extrair, clarificar e aperfeiçoar vários tipos de entidades em grandes volumes de texto. A Finch for Text requer recursos de computação significativos para fornecer aos seus clientes aperfeiçoamentos de baixa latência em alimentações de dados globais. Atualmente, estamos usando instâncias Inf1 da AWS em nos nossos modelos de NLP do PyTorch, de tradução e de desambiguação de entidade. Podemos reduzir nossos custos de inferência em mais de 80% (pelas GPUs) com otimizações mínimas, enquanto mantemos a velocidade e a performance da inferência. Esse aperfeiçoamento permite que nossos clientes aprimorem seus textos nos idiomas francês, espanhol, alemão e holandês em tempo real nas alimentações de dados por streaming em uma escala global, o que é essencial para nossos serviços financeiros, para o agregador de dados e para nossos clientes do setor público.
Scott Lightner, diretor de tecnologia, Finch Computing -
Dataminr
Alertamos sobre vários tipos de eventos em todo o mundo em vários idiomas, em diferentes formatos (imagens, vídeo, áudio, sensores de texto, combinações de todos esses tipos) de centenas de milhares de fontes. Otimizar a velocidade e o custo, considerando essa escala, é absolutamente essencial para nossos negócios. Com o AWS Inferentia, reduzimos a latência do modelo e alcançamos um throughput até nove vezes melhor por dólar. Isso nos permitiu aumentar a precisão do modelo e desenvolver os recursos de nossa plataforma implantando modelos de DL mais sofisticados e processando cinco vezes mais volume de dados, mantendo nossos custos sob controle.
Alex Jaimes, cientista-chefe e vice-presidente sênior de IA, Dataminr -
Autodesk
A Autodesk está aprimorando a tecnologia cognitiva do nosso assistente virtual baseado em IA, o Autodesk Virtual Agent (AVA), com o uso do Inferentia. O AVA responde a mais de 100.000 perguntas de clientes por mês empregando técnicas de Natural Language Understanding (NLU – Compreensão da linguagem natural) e de Deep Learning (DL – Aprendizado profundo) para extrair o contexto, a finalidade e o significado das consultas. No projeto piloto do Inferentia, conseguimos alcançar um throughput 4,9 vezes superior em relação às instâncias G4dn para nossos modelos de NLU, e estamos na expectativa de executar mais workloads nas instâncias Inf1 baseadas no Inferentia.
Binghui Ouyang, cientista de dados sênior, Autodesk -
Screening Eagle Technologies
O uso do radar de penetração no solo e da detecção de defeitos visuais é normalmente o domínio de inspetores especializados. Uma arquitetura baseada em microsserviços da AWS nos permite processar vídeos capturados por veículos de inspeção automatizados e por inspetores. Ao migrar os modelos criados internamente das instâncias baseadas em GPU para o Inferentia, conseguimos reduzir 50% do custo. Além disso, conseguimos melhorar a performance, quando comparamos os tempos com uma instância G4dn de GPU. Nossa equipe está entusiasmada com a execução de mais workloads nas instâncias Inf1 baseadas no Inferentia.
Jesús Hormigo, diretor de nuvem e IA, Screening Eagle Technologies -
NTT PC Communications
A NTT PC Communications, um provedor de soluções de comunicação e serviços de rede no Japão, é líder em telecomunicações na introdução de novos produtos inovadores no mercado de tecnologia da informação e comunicação.
A NTT PC desenvolveu o AnyMotion, um serviço de plataforma de API de análise de movimento baseado em modelos avançados de ML para estimativa de postura. Implantamos nossa plataforma AnyMotion em instâncias Inf1 do Amazon EC2 usando o Amazon ECS para um serviço de orquestração de contêineres totalmente gerenciado. Ao implantar nossos contêineres AnyMotion na instância Inf1 do Amazon EC2, notamos que o throughput aumentou cerca de quatro vezes e meia, a latência de inferência diminuiu 25% e o custo foi reduzido em 90% em comparação com as instâncias do EC2 baseadas em GPU da geração atual. Esses resultados superiores ajudarão a melhorar a qualidade dos serviços do AnyMotion em grande escala.
Toshiki Yanagisawa, engenheiro de software, NTT PC Communications Inc. -
Anthem
A Anthem é uma das empresas de prestação de serviços de saúde líderes do mercado, que atende às necessidades de mais de 40 milhões de associados do setor de saúde em vários estados americanos.
O mercado de plataformas de saúde digital está crescendo a um ritmo notável. A coleta de inteligência neste mercado é um desafio, devido ao grande volume de dados de opiniões dos clientes e à sua natureza não estruturada. A nossa aplicação automatiza a geração de insights práticos obtidos pelas opiniões dos clientes, por meio de modelos de linguagem natural de DL (Transformers). A aplicação tem um forte componente computacional e precisa ser implantada com alta performance. Implantamos facilmente nossa workload de inferência do DL nas instâncias Inf1 do Amazon EC2, com a tecnologia do processador AWS Inferentia. As novas instâncias Inf1 fornecem um throughput duas vezes maior para as instâncias baseadas em GPU e nos permitem agilizar as workloads de inferência.
Numan Laanait e Miro Mihaylov, PhDs, cientistas-chefe de IA/dados, Anthem -
Condé Nast
O portfólio global da Condé Nast abrange mais de 20 marcas líderes de mídia, incluindo a Wired, Vogue e Vanity Fair. Em poucas semanas, nossa equipe conseguiu integrar nosso mecanismo de recomendação com os chips do AWS Inferentia. Essa união permite várias otimizações de tempo de execução para modelos de linguagem natural de última geração nas instâncias Inf1 do SageMaker. Como resultado, observamos uma redução de 72% no custo em relação às instâncias de GPU implantadas anteriormente.
Paul Fryzel, engenheiro-chefe de infraestrutura de IA, Condé Nast -
Ciao Inc.
A Ciao está transformando câmeras de segurança convencionais em câmeras de análise de alta performance equivalentes à capacidade de um olho humano. Nosso aplicativo está promovendo o avanço da prevenção de desastres, monitorando condições ambientais por meio de soluções de câmera com IA baseadas na nuvem para emitir alertas antes que a situação evolua para um desastre. Esses alertas permitem reagir precocemente à situação. Com base na detecção de objetos, também podemos fornecer informações estimando o número de clientes chegando sem a presença de funcionários em lojas físicas. A Ciao Camera adotou comercialmente instâncias Inf1 do AWS Inferentia com desempenho de preço 40% superior ao G4dn com YOLOv4. Queremos ter mais de nossos serviços com instâncias Inf1 para poder desfrutar de sua significativa eficiência de custos.
Shinji Matsumoto, engenheiro de software, Ciao Inc. -
The Asahi Shimbun Company
O Asahi Shimbun é um dos jornais diários mais populares do Japão. O Media Lab, um dos departamentos da nossa empresa, tem a missão de pesquisar as tecnologias mais recentes, especialmente de IA e conectar as tecnologias de ponta para novos negócios. Com o lançamento das instâncias do Amazon EC2 Inf1 baseadas no AWS Inferentia em Tóquio, testamos nossa aplicação de IA de resumo de texto com base em PyTorch nessas instâncias. Essa aplicação processa uma grande quantidade de texto e gera manchetes e frases resumidas treinadas em artigos dos últimos 30 anos. Usando o Inferentia, reduzimos os custos em uma ordem de magnitude em relação às instâncias baseadas em CPU. Essa redução significativa nos custos nos permitirá implantar nossos modelos mais complexos em escala, que antes acreditávamos não ser economicamente viável.”
Hideaki Tamori, PhD, administrador sênior, Media Lab, The Asahi Shimbun Company -
CS Disco
A CS Disco está reinventando a tecnologia jurídica como provedor líder de soluções de IA para descoberta eletrônica, desenvolvidas por advogados para advogados. O Disco AI acelera a tarefa ingrata de vasculhar terabytes de dados, acelerando os tempos de revisão e melhorando a precisão da revisão ao alavancar modelos complexos de PLN, que são computacionalmente caros e de custo proibitivo. A Disco descobriu que as instâncias Inf1 baseadas no AWS Inferentia reduzem o custo de inferência no Disco AI em pelo menos 35% em comparação com as instâncias de placa de vídeo atuais. Com base nessa experiência positiva com as instâncias Inf1, a CS Disco vai explorar oportunidades de migração para o Inferentia.
Alan Lockett, diretor sênior de pesquisa na CS Disco -
Talroo
Na Talroo, oferecemos aos nossos clientes uma plataforma orientada a dados que lhes permite atrair candidatos específicos a emprego, para que possam fazer contratações. Estamos constantemente explorando novas tecnologias para garantir que a empresa possa oferecer os melhores produtos e serviços aos seus clientes. Usando o Inferentia, extraímos percepções de um corpo de dados de texto para aprimorar nossa tecnologia de busca e correspondência baseada em IA. A Talroo aproveita as instâncias Inf1 do Amazon EC2 para criar modelos de NLU de alto throughput com o SageMaker. O teste inicial do Talroo mostra que as instâncias do Amazon EC2 Inf1 oferecem latência de inferência 40% menor e throughput 2x maior em comparação às instâncias baseadas em GPU G4dn. Com base nesses resultados, a Talroo espera usar as instâncias Inf1 do Amazon EC2 como parte de sua infraestrutura da AWS.
Janet Hu, engenheiro de software, Talroo -
Digital Media Professionals
A Digital Media Professionals (DMP) visualiza o futuro com uma plataforma ZIA™ baseada em IA. As eficientes tecnologias de classificação de visão computacional da DMP são usadas para criar insights sobre os grandes volumes de dados de imagem em tempo real, como observação de condições e prevenção de crimes e de acidentes. Reconhecemos que nossos modelos de segmentação de imagem são executados quatro vezes mais rápido em instâncias Inf1 baseadas em AWS Inferentia em comparação com instâncias G4 baseadas em GPU. Devido a esse throughput superior e menor custo, o Inferentia nos permite implantar nossas workloads de IA, como aplicações para câmeras automotivas, em grande escala.
Hiroyuki Umeda, diretor e gerente geral, Grupo de marketing e vendas, Digital Media Professionals -
Hotpot.ai
A Hotpot.ai capacita profissionais fora da área de design para criar gráficos atraentes, e ajuda os designers profissionais a automatizar as tarefas mecânicas.
Como o ML é o centro da nossa estratégia, estávamos entusiasmados para experimentar as instâncias Inf1 baseadas no AWS Inferentia. Consideramos as instâncias Inf1 fáceis de integrar à nossa pipeline de pesquisa e desenvolvimento. O mais importante é que observamos ganhos de performance impressionantes, comparado às instâncias baseadas no G4dn GPU. Com o nosso primeiro modelo, as instâncias Inf1 renderam aproximadamente 45% a mais de taxa de transferência e reduziram em quase 50% os custos por inferência. Pretendemos trabalhar estreitamente com a equipe da AWS para implementar outros modelos e transferir a maioria da nossa infraestrutura de inferências de ML para o AWS Inferentia.
Clarence Hu, fundador, Hotpot.ai -
SkyWatch
A SkyWatch processa centenas de trilhões de pixels de dados de observação da Terra, capturados no espaço todos os dias. A adoção das novas instâncias Inf1 baseadas no AWS Inferentia com o uso do Amazon SageMaker para classificação de qualidade de imagem e detecção na nuvem em tempo real foi rápida e fácil. Foi tudo uma questão de trocar o tipo de instância em nossa configuração de implantação. Trocando os tipos de instância para Inf1 baseada no Inferentia, melhoramos a performance em 40% e reduzimos os custos gerais em 23%. Este foi um grande ganho. Ele nos permitiu reduzir nossos custos operacionais gerais, continuando ao mesmo tempo a oferecer aos nossos clientes uma geração de imagens por satélite de alta qualidade com o mínimo de sobrecarga de engenharia. Esperamos fazer a transição de todos os nossos endpoints de inferência e processos de ML em lotes para usar instâncias Inf1 a fim de aprimorar ainda mais a confiabilidade dos nossos dados e a experiência do cliente.
Adler Santos, gerente de engenharia, SkyWatch -
Money Forward Inc.
A Money Forward, Inc. presta serviços a empresas e indivíduos com uma plataforma financeira aberta e justa. Como parte dessa plataforma, a HiTTO Inc., empresa do grupo Money Forward, oferece um serviço de chatbot de IA, que usa modelos NLP personalizados para abordar várias necessidades dos seus clientes corporativos.
A migração do nosso serviço de chatbot de IA para instâncias Inf1 do Amazon EC2 foi simples. Concluímos a migração em dois meses e lançamos um serviço em grande escala nas instâncias Inf1 usando o Amazon ECS. Conseguimos reduzir nossa latência de inferência em 97% e nossos custos de inferência em mais de 50% (com relação a instâncias baseadas em GPU comparáveis) ao servir vários modelos por instância Inf1. Esperamos executar mais workloads nas instâncias Inf1 baseadas no Inferentia.
Kento Adachi, líder técnico, departamento da diretoria de tecnologia da Money Forward, Inc. -
Amazon Advertising
O Amazon Advertising ajuda empresas de todos os portes a se conectarem com seus clientes em todos os estágios da jornada de compra. Milhões de anúncios, incluindo texto e imagens, são moderados, classificados e oferecidos para uma experiência ideal do cliente diariamente.
Leia o blog de notíciasPara nosso processamento de anúncios em texto, implantamos modelos BERT baseados em PyTorch globalmente no AWS Inferentia com base em instâncias Inf1. Ao mover dos GPUs para o Inferentia conseguimos reduzir nosso custo em 69% com performance comparável. Levamos menos de três semanas para compilar e testar nossos modelos para o AWS Inferentia. Ao usar o Amazon SageMaker para implantar nossos modelos para instâncias Inf1 garantimos que nossa implantação fosse escalável e fácil de gerenciar. Quando analisei pela primeira vez os modelos compilados, a performance com o AWS Inferentia foi tão impressionante que não precisei de executar novamente as avaliações para assegurar que estavam corretos! Daqui para frente, planejamos migrar nossos modelos de processamento de anúncios em imagem para o Inferentia. Já fizemos uma análise comparativa e observamos uma latência 30% menor e uma economia de custo de 71% em relação a instâncias comparáveis baseadas em GPU para esses modelos.
Yashal Kanungo, cientista aplicada, Amazon Advertising -
Amazon Alexa
A IA e a inteligência baseada em ML do Amazon Alexa, desenvolvidas com a tecnologia da AWS, estão atualmente disponíveis em mais de 100 milhões de dispositivos, e nossa promessa para os clientes é que a Alexa ficará cada vez mais inteligente, mais conversacional, mais proativa e até mesmo mais agradável. O cumprimento dessa promessa requer aperfeiçoamentos contínuos nos tempos de resposta e nos custos de infraestrutura de ML, que é a razão pela qual estamos muito satisfeitos com o uso de instâncias Inf1 do Amazon EC2 para reduzir a latência de inferência e o custo por inferência no recurso de conversão de texto em fala da Alexa. Com as instâncias Inf1 do Amazon EC2, poderemos melhorar o serviço ainda mais para as dezenas de milhões de clientes que usam a Alexa todos os meses.
Tom Taylor, vice-presidente sênior, Amazon Alexa -
Amazon Prime Video
O Amazon Prime Video usa modelos de ML de visão computacional para analisar a qualidade dos vídeos de eventos ao vivo, a fim de garantir uma ótima experiência aos expectadores membros do Prime Video. Implantamos nossos modelos de ML para a classificação de imagens nas instâncias Inf1 do EC2 e a performance melhorou 4 vezes mais, além de observarmos uma redução de até 40% dos custos. Agora queremos usar essas economias para inovar e criar modelos avançados que possam detectar defeitos mais complexos, como lacunas de sincronização entre arquivos de áudio e vídeo, para promover uma experiência de visualização aprimorada para os membros do Prime Video.
Victor Antonino, arquiteto de soluções, Amazon Prime Video -
Amazon Rekognition and Video
O Amazon Rekognition é uma aplicação simples e fácil de análise de vídeos e imagens que ajuda os clientes a identificar objetos, pessoas, texto e atividades. O Amazon Rekognition precisa de uma infraestrutura de DL de alta performance que seja capaz de analisar bilhões de imagens e vídeos diariamente para os nossos clientes. Com as instâncias Inf1 baseadas no AWS Inferentia, executar modelos do Amazon Rekognition, como classificação de objetos, resultou em latência oito vezes menor e throughput duas vezes maior em comparação com a execução desses modelos em GPUs. Com base nesses resultados, estamos migrando o Amazon Rekognition para instâncias Inf1, permitindo que nossos clientes recebam resultados precisos com mais rapidez.
Rajneesh Singh, diretor, engenharia de software, Amazon Rekognition Video
Detalhes do produto
*Os preços mostrados são para a região Leste dos EUA (Norte da Virgínia) da AWS. Os preços das instâncias reservadas para 1 e 3 anos são para as opções de pagamento “pagamento adiantado parcial” ou para as opções de pagamento "sem pagamento adiantado" de instâncias que não têm a opção “adiantado parcial”.
As instâncias Inf1 do Amazon EC2 estão disponíveis nas regiões da AWS Leste dos EUA (Norte da Virgínia) e Oeste dos EUA (Oregon) como instâncias sob demanda, reservadas ou spot.