Mengapa Instans Inf2 Amazon EC2?
Instans Inf2 Amazon Elastic Compute Cloud (Amazon EC2) dibuat khusus untuk inferensi deep learning (DL). Instans tersebut memberikan performa tinggi dengan biaya terendah di Amazon EC2 untuk model kecerdasan buatan (AI) generatif, termasuk model bahasa besar (large language models, LLM) dan transformator visi. Anda dapat menggunakan instans Inf2 untuk menjalankan aplikasi inferensi untuk perangkuman teks, pembuatan kode, pembuatan video dan gambar, pengenalan suara, personalisasi, deteksi penipuan, dan banyak lagi.
Instans Inf2 didukung oleh AWS Inferentia2, chip AWS Inferentia generasi kedua. Instans Inf2 meningkatkan performa Inf1 dengan memberikan performa komputasi 3x lebih tinggi, memori akselerator total 4x lebih besar, throughput hingga 4x lebih tinggi, dan latensi hingga 10x lebih rendah. Instans Inf2 merupakan instans pertama dengan pengoptimalan inferensi di Amazon EC2 untuk mendukung inferensi terdistribusi penskalaan ke luar dengan konektivitas berkecepatan sangat tinggi di antara cip Inferentia. Anda kini dapat melakukan deployment model secara efisien dan hemat biaya dengan ratusan miliar parameter di beberapa cip pada instans Inf2.
SDK AWS Neuron membantu developer melakukan deployment model pada cip AWS Inferentia (dan melatihnya pada cip AWS Trainium). SDK AWS Neuron terintegrasi secara native dengan kerangka kerja, seperti PyTorch dan TensorFlow sehingga Anda dapat terus menggunakan kode aplikasi dan alur kerja yang ada untuk menjalankannya di instans Inf2.
Manfaat
Fitur
Detail produk
Ukuran Instans | Cip Inferentia2 | Akselerator Memori (GB) |
vCPU | Memori (GiB) |
Penyimpanan Lokal |
Intercip Interkoneksi |
Bandwidth Jaringan (Gbps) |
Bandwidth EBS (Gbps) |
Harga Sesuai Permintaan | Instans yang Dicadangkan selama 1 Tahun | Instans yang Dicadangkan selama 3 Tahun |
inf2.xlarge | 1 | 32 | 4 | 16 | Hanya EBS | Tidak tersedia | Hingga 15 | Hingga 10 | 0,76 USD | 0,45 USD | 0,30 USD |
inf2.8xlarge | 1 | 32 | 32 | 128 | Hanya EBS | Tidak tersedia | Hingga 25 | 10 | 1,97 USD | 1,81 USD | 0,79 USD |
inf2.24xlarge | 6 | 192 | 96 | 384 | Hanya EBS | Ya | 50 | 30 | 6,49 USD | 3,89 USD | 2,60 USD |
inf2.48xlarge | 12 | 384 | 192 | 768 | Hanya EBS | Ya | 100 | 60 | 12,98 USD | 7,79 USD | 5,19 USD |
Testimoni Pelanggan dan Partner
Berikut adalah beberapa contoh dari cara pelanggan dan partner dalam mencapai tujuan bisnis mereka dengan instans Inf2 Amazon EC2.
-
Leonardo.ai
Tim kami di Leonardo memanfaatkan AI generatif untuk memungkinkan para profesional dan penggemar kreatif menghasilkan aset visual dengan kualitas, kecepatan, dan konsistensi gaya yang tak tertandingi. Harga terhadap performa AWS Inf2 Utilizing AWS Inf2 kami dapat mengurangi biaya hingga 80% tanpa mengorbankan performa, yang secara mendasar mengubah proposisi nilai yang dapat kami tawarkan kepada pelanggan untuk memungkinkan fitur-fitur kami yang paling canggih pada titik harga yang lebih mudah diakses. AWS Inf2 Utilizing AWS Inf2 juga mengurangi kekhawatiran seputar ketersediaan biaya dan kapasitas untuk layanan AI tambahan kami, yang semakin penting seiring dengan pertumbuhan dan peningkatan skala kami. Solusi ini adalah teknologi kunci yang memungkinkan kami untuk terus melampaui batasan hal-hal yang mungkin dicapai dengan AI generatif, sehingga membuka era baru kreativitas dan kekuatan ekspresif bagi pengguna kami.
Pete Werner, Head of AI di Leonardo.Ai -
Runway
Di Runway, rangkaian AI Magic Tools kami memungkinkan pengguna untuk menghasilkan dan mengedit konten dengan cara yang benar-benar baru. Kami terus mencoba hal lain yang mungkin dilakukan melalui pembuatan konten yang didukung AI, dan karena model AI kami menjadi lebih kompleks, biaya infrastruktur yang mendasari untuk menjalankan model ini dalam skala besar bisa menjadi mahal. Melalui kolaborasi dengan instans Inf2 Amazon EC2 yang didukung oleh AWS Inferentia, kami dapat menjalankan beberapa model dengan throughput hingga 2x lebih tinggi daripada instans berbasis GPU yang setara. Inferensi performa tinggi dengan biaya murah ini memungkinkan kami untuk menghadirkan lebih banyak fitur, men-deploy model yang lebih kompleks, dan memberikan pengalaman yang lebih baik bagi jutaan kreator yang menggunakan Runway.
Cristóbal Valenzuela, Cofounder dan CEO di Runway -
Qualtrics
Qualtrics mendesain dan mengembangkan perangkat lunak manajemen pengalaman.
Fokus kami di Qualtrics adalah membangun teknologi yang akan mengatasi kesenjangan pengalaman bagi pelanggan, karyawan, merek, dan produk. Untuk mencapainya, kami mengembangkan model DL multitugas dan multimodal yang kompleks untuk meluncurkan berbagai fitur baru, seperti klasifikasi teks, penandaan urutan, analisis diskursus, ekstraksi frasa kunci, ekstraksi topik, pembuatan klaster, dan pemahaman percakapan ujung ke ujung. Saat kami menggunakan model yang lebih kompleks ini dalam lebih banyak aplikasi, volume data tidak terstruktur akan meningkat, dan kami membutuhkan lebih banyak solusi yang dioptimalkan dengan inferensi yang dapat memenuhi tuntutan ini, seperti instans Inf2, untuk menghadirkan pengalaman terbaik bagi pelanggan kami. Kami begitu antusias dengan instans Inf2 yang baru karena selain memungkinkan kami mencapai throughput yang lebih tinggi sekaligus memangkas latensi secara signifikan, instans ini juga menghadirkan berbagai fitur seperti inferensi terdistribusi dan dukungan bentuk input dinamis yang disempurnakan, yang akan membantu kami menskalakan untuk memenuhi kebutuhan deployment seiring dengan makin besar dan kompleksnya model kami.
Aaron Colak, Head of Core Machine Learning di Qualtrics -
Finch Computing
Finch Computing adalah perusahaan teknologi bahasa alami yang menyediakan aplikasi kecerdasan buatan untuk klien pemerintah, layanan keuangan, dan integrator data.
Untuk memenuhi kebutuhan pelanggan akan pemrosesan bahasa alami waktu nyata, kami mengembangkan model DL canggih yang menskalakan beban kerja produksi besar. Kami harus menyediakan transaksi berlatensi rendah dan mencapai throughput tinggi untuk memproses umpan data global. Kami telah memigrasikan banyak beban kerja produksi ke instans Inf1 dan mampu memangkas biaya sebesar 80% melebihi GPU. Saat ini, kami sedang mengembangkan model yang lebih besar dan lebih kompleks yang memungkinkan pengartian yang lebih berwawasan dan lebih mendalam dari teks tertulis. Banyak pelanggan kami yang memerlukan akses ke wawasan ini secara waktu nyata, dan performa pada instans Inf2 akan membantu kami memberikan latensi yang lebih rendah serta throughput yang lebih tinggi daripada instans Inf1. Dengan peningkatan performa Inf2 dan fitur-fitur Inf2 baru, seperti dukungan untuk ukuran input dinamis, kami meningkatkan efisiensi biaya, meningkatkan pengalaman pelanggan dalam waktu nyata, dan membantu pelanggan mendapatkan wawasan baru dari data mereka.
Franz Weckesser, Chief Architect di Finch Computing -
Money Forward Inc.
Money Forward, Inc. melayani bisnis dan perorangan dengan platform keuangan yang terbuka dan adil. Sebagai bagian dari platform ini, HiTTO Inc., perusahaan grup Money Forward menawarkan layanan chatbot AI, yang menggunakan model pemrosesan bahasa alami (natural language processing, NLP) yang disesuaikan untuk memenuhi beragam kebutuhan pelanggan perusahaan mereka.
Kami meluncurkan layanan chatbot AI skala besar di instans Inf1 Amazon EC2 dan mengurangi latensi inferensi sebesar 97% dibandingkan instans berbasis GPU yang sebanding sekaligus mengurangi biaya. Kami sangat senang melihat peningkatan performa lebih lanjut dalam hasil pengujian awal kami pada instans Inf2 Amazon EC2. Dengan model NLP kustom yang sama, Inf2 AWS dapat mengurangi latensi hingga 10x dibandingkan Inf1. Saat kami beralih ke model dengan miliaran parameter yang lebih besar, Inf2 membuat kami yakin bahwa kami dapat terus memberikan pengalaman pengguna yang lengkap dan unggul bagi para pelanggan.
Takuya Nakade, CTO di Money Forward Inc. -
Fileread
Di Fileread.ai, kami membangun solusi untuk membuat interaksi dengan dokumen Anda semudah mengajukan pertanyaan, sehingga memungkinkan pengguna untuk menemukan apa yang mereka cari, dari semua dokumen mereka dan mendapatkan informasi yang tepat lebih cepat. Sejak beralih ke instans Inf2 EC2 baru, kami telah melihat peningkatan yang signifikan dalam kemampuan inferensi NLP kami. Penghematan biaya saja telah menjadi terobosan bagi kami, memungkinkan kami mengalokasikan sumber daya dengan lebih efisien tanpa mengorbankan kualitas. Kami mengurangi latensi inferensi sebesar 33% sekaligus meningkatkan throughput sebesar 50% sehingga dapat memuaskan pelanggan kami dengan penyelesaian yang lebih cepat. Tim kami begitu terpukau dengan kecepatan dan performa Inf2 dibandingkan instans G5 lama. Jadi, jelas inilah masa depan deployment model NLP
Daniel Hu, CEO di Fileread -
Yaraku
Di Yaraku, misi kami adalah membangun infrastruktur yang membantu semua orang berkomunikasi tanpa hambatan bahasa. Produk unggulan kami, YarakuZen, memungkinkan siapa saja, mulai dari penerjemah profesional hingga individu monolingual, untuk menerjemahkan dan mengedit teks serta dokumen dengan penuh keyakinan. Untuk mendukung proses ini, kami menawarkan berbagai alat canggih berdasarkan model DL, yang mencakup berbagai tugas seperti penerjemahan, pencocokan per kata antara bahasa sumber dan bahasa target (bitext word alignment), segmentasi kalimat, pemodelan bahasa, dan lainnya. Dengan instans Inf1, kami dapat mempercepat layanan dalam memenuhi permintaan yang terus meningkat sekaligus mengurangi biaya inferensi lebih dari 50% dibandingkan instans berbasis GPU. Kami kini beralih ke pengembangan model generasi berikutnya yang lebih besar dan akan membutuhkan kemampuan instans Inf2 yang ditingkatkan untuk memenuhi permintaan sekaligus mempertahankan latensi rendah. Dengan Inf2, kami akan dapat menaikkan skala model sebesar 10x lipat sekaligus mempertahankan throughput yang sama, sehingga kami dapat memberikan kualitas yang lebih baik kepada bagi pelanggan kami.
Giovanni Giacomo, NLP Lead di Yaraku -
Hugging Face
Hugging Face memiliki misi untuk membuka secara luas akses ke ML yang baik agar dapat membantu developer ML di seluruh dunia memecahkan masalah di dunia nyata. Kunci untuk mewujudkan hal itu adalah dengan memastikan model-model terbaru dan terhebat dapat berjalan secepat dan seefisien mungkin pada cip ML terbaik di cloud. Kami sangat senang dengan potensi Inferentia2 untuk menjadi cara standar baru untuk melakukan deployment model AI generatif dalam skala besar. Dengan Inf1, kami melihat biaya hingga 70% lebih rendah daripada instans berbasis GPU tradisional, dan dengan Inf2, kami telah melihat latensi hingga 8x lebih rendah untuk Transformator menyerupai BERT dibandingkan dengan Inferentia1. Dengan Inferentia2, komunitas kami akan dapat dengan mudah menskalakan performa ini ke LLM pada skala lebih dari 100 miliar parameter, serta model difusi dan penglihatan komputer terbaru.
-
PyTorch
PyTorch mempercepat jalur dari pembuatan prototipe penelitian hingga deployment produksi untuk developer ML. Kami telah berkolaborasi dengan tim AWS untuk memberikan dukungan PyTorch native untuk instans Inf2 Amazon EC2 baru yang didukung AWS Inferentia2. Karena makin banyak anggota komunitas kami yang ingin melakukan deployment model AI generatif yang besar, kami sangat senang bermitra dengan tim AWS untuk mengoptimalkan inferensi terdistribusi pada instans Inf2 dengan konektivitas NeuronLink berkecepatan tinggi di antara cip. Dengan Inf2, developer yang menggunakan PyTorch sekarang dapat dengan mudah melakukan deployment LLM dan model transformator visi yang sangat besar. Selain itu, instans Inf2 memberikan kemampuan inovatif lainnya kepada developer PyTorch, termasuk tipe data yang efisien, bentuk dinamis, operator khusus, dan pembulatan stokastik yang dioptimalkan untuk perangkat keras, sehingga membuatnya sangat cocok untuk digunakan secara luas oleh komunitas PyTorch.
-
Nextira
Tantangan yang telah lama ada terkait LLM, dan lebih luas lagi terkait aplikasi AI generatif tingkat korporasi, adalah biaya terkait pelatihan dan operasi model DL performa tinggi. Bersama AWS Trainium, AWS Inferentia2 meminimalkan biaya yang perlu dikeluarkan oleh pelanggan saat mereka membutuhkan pelatihan beperforma tinggi. Kini, pelanggan kami yang ingin mengambil manfaat dalam pelatihan dan inferensi dapat mencapai hasil yang lebih baik dengan biaya yang rendah. Trainium dan Inferentia dapat mempercepat skala guna memenuhi segala kebutuhan DL, bahkan yang paling kompleks, untuk perusahaan-perusahaan besar yang ada saat ini. Banyak pelanggan Nextira yang menjalankan beban kerja AI besar akan mendapatkan manfaat langsung dari chipset baru ini, yang meningkatkan efisiensi dalam penghematan biaya dan performa sehingga mendorong hasil yang lebih cepat di pasar mereka.
Jason Cutrer, founder dan CEO di Nextira -
Amazon CodeWhisperer
Amazon CodeWhisperer adalah pendamping pengodean AI yang menghasilkan rekomendasi kode satu baris atau fungsi penuh secara waktu nyata di lingkungan pengembangan terintegrasi (integrated development environment, IDE) untuk membantu Anda membangun perangkat lunak dengan cepat.
Dengan CodeWhisperer, kami meningkatkan produktivitas developer perangkat lunak dengan memberikan rekomendasi kode menggunakan model AI generatif. Untuk mengembangkan rekomendasi kode yang sangat efektif, kami meningkatkan jaringan DL kami menjadi miliaran parameter. Pelanggan kami membutuhkan rekomendasi kode secara real time saat mereka mengetik, sehingga respons latensi rendah sangat penting. Model AI generatif yang besar memerlukan komputasi dengan performa tinggi untuk memberikan waktu respons dalam sepersekian detik. Dengan Inf2, kami memberikan latensi yang sama seperti menjalankan CodeWhisperer pada instans GPU pelatihan yang dioptimalkan untuk urutan input dan output yang besar. Dengan demikian, instans Inf2 membantu kami menghemat biaya dan daya serta memberikan pengalaman terbaik bagi para developer.
Doug Seven, General Manager di Amazon CodeWhisperer -
Amazon Search
Mesin pencarian produk Amazon mengindeks miliaran produk, melayani miliaran kueri pelanggan setiap harinya, dan merupakan salah satu layanan yang paling banyak digunakan di dunia.
Saya begitu antusias dengan peluncuran GA Inf2. Performa unggul dari Inf2, ditambah dengan kemampuannya untuk menangani model yang lebih besar dengan miliaran parameter, menjadikannya pilihan yang sempurna untuk layanan kami dan memungkinkan kami untuk membuka kemungkinan baru dalam hal kompleksitas dan akurasi model. Dengan kecepatan dan efisiensi biaya yang signifikan yang ditawarkan oleh Inf2, mengintegrasikannya ke dalam infrastruktur layanan Amazon Search dapat membantu memenuhi permintaan pelanggan kami yang terus meningkat. Kami berencana untuk memperkuat pengalaman belanja kami yang baru menggunakan LLM generatif dengan Inf2.
Trishul Chilimbi, VP di Amazon Search