Amazon EC2 Inf1 執行個體

高性能、低成本機器學習推論

為什麼選擇 Amazon EC2 Inf1 執行個體?

不同產業的企業都在研究採用人工智慧 (AI) 技術的轉型,以推動業務創新、改善客戶體驗和程序改進。採用 AI 應用程式的機器學習 (ML) 模型正變得越來越複雜,導致潜在的運算基礎設施成本不斷上升。用於開發和執行 ML 應用程式的基礎設施支出中,高達 90% 通常用於推論。客戶正在尋找具成本效益的基礎設施解決方案,以在生產中部署 ML 應用程式。

Amazon EC2 Inf1 執行個體提供高效能和低成本的 ML 推論。相較於 Amazon EC2 執行個體,其輸送量最多提高 2.3 倍,每次推論成本最多降低 70%。Inf1 執行個體是從基礎開始建置,並支援 ML 推論應用程式。內建最多 16 塊 AWS Inferentia 晶片,這些高效能 ML 推論晶片是由 AWS 設計和建置。此外,Inf1 執行個體包含了第 2 代 Intel Xeon 可擴充處理器,以及最高 100 Gbps 聯網,帶來高輸送量推論。

客戶可以使用 Inf1 執行個體執行大型的 ML 推論應用程式,例如,搜尋推薦、電腦視覺、語音辨識、自然語言處理 (NLP)、個人化作業和詐騙偵測。

開發人員可以與 TensorFlow、PyTorch 和 Apache MXNet 等熱門 ML 架構整合的 AWS Neuron SDK 部署 ML 至 Inf1 執行個體。 他們可以繼續使用相同的 ML 工作流程,並無縫地將應用程式遷移至 Inf1 執行個體,只需變更極少的程式碼,且不受限於廠商專屬的解決方案。

透過使用 Amazon SageMaker、預先設定了 Neuron SDK 的 AWS Deep Learning AMI (DLAMI),或使用 Amazon Elastic Container Service (Amazon ECS) 或 Amazon Elastic Kubernetes Service (Amazon EKS) 實現容器化 ML 應用程式,輕鬆開始使用 Inf1 執行個體。

Amazon EC2 Inf1 執行個體

優勢

功能

客戶和合作夥伴見證

以下是客戶和合作夥伴如何透過 Amazon EC2 Inf1 執行個體實現業務目標的範例。

  • Snap Inc.

    我們將 ML 整合至 Snapchat 的許多方面,探索這一領域的創新是最優先的考量。聽說 Inferentia 後,我們便開始與 AWS 合作,採用 Inf1/Inferentia 執行個體來幫助我們進行 ML 部署,包括圍繞效能和成本方面的合作。我們從我們的推薦模型開始,並期待將來在更多模型上採用 Inf1 執行個體。

    Snap Inc. 工程副總裁 Nima Khajehnouri
  • Sprinklr

    Sprinklr 的 AI 驅動型統一客戶體驗管理 (Unified-CXM) 平台可讓公司跨多個管道收集即时客戶回饋,並將其轉化為可行的洞察,從而主動解決問題、增强產品開發、改進內容行銷、提供更好的客戶服務等。使用 Amazon EC2 Inf1,我們可以大幅提高 NLP 模型的效能,並提高電腦視覺模型的效能。我們期待繼續使用 Amazon EC2 Inf1,更好地為全球客戶提供服務。

    Sprinklr 產品工程副總裁 Vasant Srinivasan
  • Finch Computing

    我們最先進的 NLP 產品 Finch for Text 為使用者提供了在大量文字中擷取、消除歧義和擴充多種類型實體的能力。Finch for Text 需要大量運算資源,來為我們的客戶提供對全球資料摘要的低延遲擴充。我們現在在 PyTorch NLP、翻譯和實體歧義消除模型中使用 AWS Inf1 執行個體。我們能夠以最低程度的最佳化,將推論成本降低 80% 以上 (超過 GPU),同時保持推論速度和效能。這一改善讓我們的客戶能夠在串流資料摘要時,在全球範圍內即時擴充其法文、西班牙文、德文和荷蘭文文字,這對於我們的金融服務、資料彙總工具和公共部門客戶來說至關重要。

    Finch Computin 公司技術長 Scott Lightner
  • Dataminr

    我們針對世界各地數十萬種來源的許多類型的事件發出提醒,包括多種語言及不同的格式 (影像、影片、音訊、文字感應器、所有這些類型的組合)。由於規模對我們的業務來說絕對至關重要,因此需要針對速度和成本進行優化。藉助 AWS Inferentia,我們降低了模型延遲,並實現了每美元提升高達 9 倍的輸送量。這讓我們能夠部署更複雜的 DL 模型,並處理增加多達 5 倍的資料量,同時控制我們的成本,藉此提高模型的準確度並擴展平台的功能。

    Dataminr 首席科學家兼人工智慧資深副總裁 Alex Jaimes
  • Autodesk

    Autodesk 正在透過使用 Inferentia,推進我們採用 AI 技術虛擬助理 Autodesk Virtual Agent (AVA) 的認知技術。AVA 透過使用自然語言理解 (NLU) 和深度學習 (DL) 技術來擷取查詢背後的上下文、意圖和含義,每月回答超過 100,000 個客戶問題。與使用 G4dn 相比,試用 Inferentia 時我們的 NLU 模型能夠取得原先 4.9 倍的輸送量,我們期待在 Inferentia 型 Inf1 執行個體上執行更多的工作負載。

    Autodesk 資深資料科學家Binghui Ouyang
  • Screening Eagle Technologies

    使用探地雷達和偵測視覺缺陷通常是專家測量員的領域。以 AWS 微型服務為基礎的架構,讓我們能夠處理由自動檢查車輛和檢查員擷取的影片。透過將我們內部建置的模型從傳統的 GPU 型執行個體遷移至 Inferentia,我們能夠將成本降低 50%。此外,比較時間與 G4dn GPU 執行個體時,我們能夠看到效能提升。我們的團隊期待在以 Inferentia 為基礎的 Inf1 執行個體上執行更多工作負載。

    Screening Eagle Technologies 雲端和 AI 長 Jesús Hormigo
  • NTT PC Communications

    NTT PC Communications 是日本的網路服務和通訊解決方案供應商,是在資訊與通訊技術市場推出創新產品的電信領導者。

    NTT PC 開發了 “AnyMotion”,這是一種基於進階姿勢估計 ML 模型的運動分析 API 平台服務。我們使用 Amazon ECS 在 Amazon EC2 Inf1 執行個體上部署了他們的 AnyMotion 平台,以提供全受管容器協同運作服務。透過在 Amazon EC2 Inf1 上部署我們的 AnyMotion 容器,相較於目前一代以 GPU 為基礎的 EC2 執行個體,我們的輸送量提升了 4.5 倍,推論延遲減少了 25%,成本降低了 90%。這些卓越的成效將有助於大規模提升 AnyMotion 服務的品質。

    NTT PC Communications Inc. 軟體工程師 Toshiki Yanagisawa
  • Anthem

    Anthem 是美國其中一間領先的健康福利公司,為數十個州的超過 4,000 萬會員提供醫療保健服務。 

    數位醫療平台的市場正以驚人的速度增長。由於大量的客戶意見資料及其非結構化性質,因此在這個市場上收集情報是一項極具挑戰性的任務。我們的應用程式透過 DL 自然語言模型 (Transformers),自動從客戶意見產生可行的洞見。我們的應用程式運算密集,需要以高效能方式進行部署。我們將 DL 推論工作負載,無縫部署至由 AWS Inferentia 處理器提供支援的 Amazon EC2 Inf1 執行個體上。全新 Inf1 執行個體將 GPU 型執行個體的輸送量提高了 2 倍,讓我們能夠簡化推論工作負載。

    Anthem 首席 AI/資料科學家 Numan Laanait 和 Miro Mihaylov 博士
  • Condé Nast

    Condé Nast 的全球投資組合有 20 多個領先的媒體品牌,包括 WiredVogueVanity Fair。在幾個星期內,我們的團隊能夠將我們的推薦引擎與 AWS Inferentia 晶片整合為一體。這種聯合為 SageMaker 的 Inf1 執行個體上最先進的自然語言模型提供多個執行時間優化。因此,我們觀察到與以前部署的 GPU 執行個體相比,成本降低了 72%。

    Condé Nast 人工智慧基礎架構首席工程師 Paul Fryzel
  • Ciao Inc.

    Ciao 正在將傳統的安全攝影機演進為相當於人眼的高效能分析攝影機。我們的應用程式正在促進災難預防,使用雲端 AI 攝影機解決方案來監控環境狀況,以在災難發生前發出警示。此類警示可促使事先對情況做出回應。根據物件偵測,我們還可以透過從實體店的影片中估算沒有員工時的賓客人數,從而提供洞見。Ciao 攝影機在商業上採用 AWS Inferentia 型 Inf1 執行個體,相較於 YOLOv4 的 G4dn,其性價比提升了 40%。我們期待 Inf1 憑藉其顯著的成本效益提供更多服務。

    Ciao Inc. 軟體工程師 Shinmoto Matsumoto
  • The Asahi Shimbun Company

    The Asahi Shimbun 是日本最受歡迎的日報之一。媒體實驗室是我們公司其中一個部門,其使命是研究最新技術,尤其是 AI,以及在新業務中採用先進的技術。隨著在東京推出 AWS Inferentia 型 Amazon EC2 Inf1 執行個體,我們在這些執行個體上測試了 PyTorch 文字摘要 AI 應用程式。該應用程式處理大量文字,並透過最近 30 年的文章產生經過訓練的標題和摘要句子。使用 Inferentia,相較於 CPU 執行個體,我們將成本降低了一個數量級。成本的大幅降低讓我們能夠大規模部署最複雜的模型,而過去我們認為這在經濟上不可行。」

    Asahi Shimbun Company 媒體實驗室資深管理人員 Hideaki Tamori 博士
  • CS Disco

    CS Disco 正在重塑法律技術,成為人工智慧解決方案的領先供應商,提供由律師為同行開發的電子蒐證功能。Disco AI 利用複雜的 NLP 模型 (運算量大且成本高昂) 來加速完成吃力不討好的資料處理工作、完成 TB 級資料的梳理、加快審查時間並提高審查準確性。Disco 發現,與現今的 GPU 執行個體相比,AWS Inferentia 型 Inf1 執行個體在 Disco AI 中的推論成本至少降低 35%。因為有這次 Inf1 執行個體的滿意經驗,CS Disco 將探索遷移到 Inferentia 的機會。

    CS Disco 資深研究主管Alan Lockett
  • Talroo

    在 Talroo,我們為客戶提供了一個資料驅動型平台,讓他們能夠吸引獨特的求職者,以便聘用他們。我們持續探索新科技,確保能為客戶提供最理想的產品與服務。使用 Inferentia,我們可以從大量文字資料中擷取洞見,以增強我們採用 AI 技術的搜尋和比對技術。Talroo 充分利用 Amazon EC2 Inf1 執行個體,與 SageMaker 攜手建立高輸送量 NLU 模型。Talroo 的初始測試表明,相較於 G4dn GPU 型執行個體,Amazon EC2 Inf1 執行個體的推論延遲降低了 40%,而輸送量則提升了 2 倍。根據這些結果,Talroo 期待將 Amazon EC2 Inf1 執行個體用作其 AWS 基礎架構的一部分。

    Talroo 軟體工程師 Janet Hu
  • Digital Media Professionals

    數位媒體專業人員 (DMP) 透過以 AI 為基礎的 ZIA™ 平台視覺化未來。憑藉 DMP 的高效電腦視覺分類技術,可對大量即時影像資料建立洞察,例如狀態觀察、犯罪預防和事故防範。我們認識到,相較於 GPU 型 G4 執行個體,在 AWS Inferentia 型 Inf1 執行個體上,我們的影像分割模型執行速度提升了四倍。由於具有更高的輸送量和更低的成本,Inferentia 讓我們能夠大規模部署 AI 工作負載,例如用於車載行車記錄儀的應用程式。

    Digital Media Professionals 銷售與市場部總監兼總經理 Hiroyuki Umeda
  • Hotpot.ai

    Hotpot.ai 讓非設計師人士能夠建立引人入勝的圖形,並協助專業設計師自動化機械任務。 

    由於 ML 是我們的策略核心,因此試用以 AWS Inferentia 為基礎的 Inf1 執行個體讓我們驚喜不已。我們發現 Inf1 執行個體可輕鬆整合至我們的研發管道中。最重要的是,相較於 G4dn GPU 型執行個體,我們觀察到驚人的效能提升。在我們的第一個模型中,Inf1 執行個體的輸送量提高約 45%,每次推論的成本降低近 50%。我們打算與 AWS 團隊緊密合作,以移植其他模型,並將我們的大多數 ML 推論基礎架構轉移至 AWS Inferentia。

    Hotpot.ai 創辦人 Clarence Hu
  • SkyWatch

    SkyWatch 要處理每天從太空擷取的百兆級像素的地球觀測資料。使用 Amazon SageMaker 採用基於 AWS Inferentia 的新 Inf1 執行個體,進行即時雲端偵測和影像品質評分,快速而簡單。只需在我們的部署組態中切換執行個體類型。將執行個體類型切換至基於 Inferentia 的 Inf1,我們提升了 40% 的效能,並降低了 23% 的總成本。這是重大獲益。這使我們降低了整體營運成本,同時以最小的工程負擔繼續為客戶提供高品質衛星影像。我們希望將我們的全部推論端點和批次 ML 處理轉換為使用 Inf1 執行個體,以進一步提升我們的資料可靠性和客戶體驗。

    SkyWatch 工程經理 Adler Santos
  • Money Forward Inc.

    Money Forward, Inc. 為企業和個人提供開放和公平的金融平台。Money Forward 集團公司 HiTTO Inc. 提供人工智慧聊天機器人服務,作為該平台的一部分,該服務使用定製的 NLP 模型來滿足其企業客戶的多樣化需求。

    將我們的 AI 聊天機器人服務遷移至 Amazon EC2 Inf1 執行個體非常簡單。我們在兩個月內完成了遷移,並使用 Amazon ECS 在 Inf1 執行個體上啟動了大規模服務。透過為每個 Inf1 執行個體提供多個模型,我們能夠將推理延遲降低 97%,推理成本降低 50% 以上 (相對於以 GPU 為基礎的可比較執行個體)。我們期待在以 Inferentia 為基礎的 Inf1 執行個體上執行更多工作負載。

    Money Forward, Inc. 技術長辦公室技術主管 Kento Adachi
  • Amazon Advertising

    Amazon 廣告協助各種規模的企業在購物過程的每個階段都與客戶聯繫。每天都有數百萬的廣告 (包括文字和影像) 被調節、分類和使用,以取得最佳的客戶體驗。

    閱讀新聞部落格

    對於文字廣告處理,我們在 AWS Inferentia 型 Inf1 執行個體上全域部署 PyTorch 型 BERT 模型。透過從 GPU 轉向 Inferentia,我們能够以相當的效能將成本降低 69%。編譯和測試我們的 AWS Inferentia 模型不到三週。使用 Amazon SageMaker 將我們的模型部署至 Inf1 執行個體,確保了我們的部署可擴展且易於管理。當我第一次分析編譯的模型時,AWS Inferentia 的效能令人印象深刻,以至於我不得不重新執行基準測試以確保它們是正確的! 接下來,我們計劃將影像廣告處理模型遷移至 Inferentia。我們已經對這些模型進行基準測試,與可比的 GPU 型執行個體相比,延遲降低了 30%,成本節約了 71%。

    Amazon 廣告應用科學家 Yashal Kanungo
  • Amazon Alexa

    採用 AWS 技術的 Amazon Alexa AI 和 ML 智慧目前已用於上億台裝置,我們對客戶的承諾是 Alexa 一直在變得更智慧、更健談、更主動甚至更令人愉快。為實現承諾,需要繼續縮短回應時間以及降低 ML 基礎設施成本,這也是我們樂於使用 Amazon EC2 Inf1 在 Alexa 文字轉換語音方面降低推論延遲和每次推論成本的原因。有了 Amazon EC2 Inf1,我們可以讓數以千萬計每月使用 Alexa 的客戶獲得更好的服務。

    Amazon Alexa 資深副總裁 Tom Taylor
  • Amazon Prime Video

    Amazon Prime Video 使用電腦視覺 ML 模型,來分析即時活動的影片品質,以確保 Prime Video 會員獲得最佳的觀看體驗。我們在 EC2 Inf1 執行個體上部署我們的影像分類 ML 模型,並且能夠看到 4 倍的效能提升,以及高達 40% 的成本節省。我們目前正在尋求充分利用這些成本節省,來進行創新和建置進階模型,這能夠偵測更複雜的缺陷,如音訊與影片檔案之間的同步間隙,從而為 Prime Video 會員提供更進階的觀看體驗。

    Amazon Prime Video 解決方案架構師 Victor Antonino
  • Amazon Rekognition and Video

    Amazon Rekognition 是一種簡單易用的影像和影片分析應用程式,可幫助客戶識別物件、人物、文字和活動。Amazon Rekognition 需要高效能的 DL 基礎設施,以便每天為我們的客戶分析數十億個影像和影片。與在 GPU 上執行相比,使用 AWS Inferentia 型 Inf1 執行個體執行 Amazon Rekognition 模型 (例如物件分類) 可將延遲降低至原來的 8 倍,將輸送量提高至原來的 2 倍。鑒於這些結果,我們正在將 Amazon Rekognition 移至 Inf1,讓我們的客戶能夠更快地取得準確結果。

    Amazon Rekognition and Video 軟體工程總監 Rajneesh Singh

產品詳細資訊

*所示價格是針對美國東部 (維吉尼亞北部) AWS 區域。1 年期和 3 年期預留執行個體的價格適用於「部分預付」付款選項,沒有「部分預付」選項的執行個體則適用於「無預付」。

美國東部 (維吉尼亞北部) 及美國西部 (奧勒岡) AWS 區域的 Amazon EC2 Inf1 執行個體可提供隨需、預留或競價型執行個體等形式。

入門