前有谷歌反擊OpenAI，后有AMD反擊英偉達，說到底都是算力之爭

2023-12-07 來源：賢集網

1576

AMD公司終于決定反擊英偉達了。

北京時間12月7日凌晨，在美國圣何塞舉辦的AMD Advancing AI 活動上，AMD CEO蘇姿豐（Lisa Su）宣布推出Instinct MI300X AI 加速芯片（APU）以及宣布MI300A芯片量產。

兩款產品均瞄準這一英偉達主導的市場。

其中，MI300X內存是英偉達H100產品的2.4倍，內存帶寬是H100的1.6倍，進一步提升了性能，有望挑戰英偉達在炙手可熱的 AI 加速芯片市場地位。

具體來說，AMD表示，MI300X新款芯片較英偉達的H100性能最多可以提升60%。在與H100（Llama 2 700億參數版本）的一對一比較中，MI300X性能提高了高達20%；在與H100（FlashAttention 2版本）的一對一比較中，MI300X性能提高20%；在與H100（Llama 2 70B版本）的8對8服務器比較中，MI300X性能提高40%；在與H100（Bloom 176B）的8對8服務器比較中，MI300X性能提高60%。

與此同時，在 AI 大模型訓練中，相比H100，MI300X在 BF16性能基準中提高3.4 倍，INT8精度性能提高6.8倍，1.3倍的FP8和FP16 TFLOPS，從而進一步提升了訓練性能。

蘇姿豐表示，新款MI300X芯片在訓練人工智能軟件的能力方面與H100相當，在推理方面，也即軟件投入實際使用后運行該軟件的過程，要比H100好得多。

針對 AI，AMD共有三大優勢，一是具備完整IP與廣泛的運算引擎產品組合，可支援從云端、邊緣至終端，要求最嚴苛的工作負載；二是該公司正擴展開源軟件能力，以降低進入與使用AI 完整潛力的門檻；第三是AMD正在深化AI合作伙伴的產業體系，讓云端服務供應商（CSP）、OEM與獨立軟體開發廠商（ISV）能享有其先驅性的創新技術。

目前，AMD、英偉達、英特爾三家在全力推進 AI 熱潮。其中，英偉達已公布2024年Hopper H200 GPU和Blackwell B100 GPU產品信息，英特爾則將在2024年推出Guadi 3和Falcon Shores GPU，預計未來幾年三家公司將持續進行競爭。

實力超越英偉達H100

實際應用性能表現方面，看看AMD官方提供的一些數據，對比對象都是H100。

通用大語言模型，無論是中等還是大型內核，都可以領先10-20％。推理性能，都是八路并聯的整套服務器，1760億參數模型Bloom的算力可領先多達60％，700億參數模型Llama 2的延遲可領先40％。訓練性能，同樣是八路服務器，300億參數MPT模型的算力不相上下。

總的來說，無論是AI推理還是AI訓練，MI300X平臺都有著比H100平臺更好的性能，很多情況下可以輕松翻倍。

產品強大也離不開合作伙伴的支持，MI300X已經贏得了多家OEM廠商和解決方案廠商的支持，包括大家耳熟能詳的慧與(HPE)、戴爾、聯想、超微、技嘉、鴻佰(鴻海旗下/富士康同門)、英業達、廣達、緯創、緯穎。

其中，戴爾的PowerEdge XE9680服務器擁有八塊MI300X，聯想的產品2024年上半年登場，超微的H13加速器采用第四代EPYC處理器、MI300X加速器的組合。

在基礎架構中引入MI300X的合作伙伴也相當不少，包括：Aligned、Arkon Engergy、Cirrascale、Crusoe、Denvr Dataworks、TensorWare，等等。

客戶方案方面，比如微軟的Azure ND MI300X v5系列虛擬機，比如甲骨文云的bare metal(裸金屬) AI實例，比如Meta(Facebook)數據中心引入以及對于ROCm 6 Llama 2大模型優化的高度認可，等等。

如果說MI300X是傳統GPU加速器的一次進化，MI300A就是一場革命了，CPU、GPU真正融合的方案目前只有AMD可以做到。相比之下，NVIDIA Grace Hopper雖然也是CPU、GPU合體，但彼此是獨立芯片，需要通過外部連接，放在一塊PCB板上，層級上還差了一個檔位。

Intel規劃的融合方案Falcon Shores因為各方面原因已經暫時取消，短期內還是純GPU，未來再沖擊融合。

MI300A是全球首款面向AI、HPC的APU加速器，同時將Zen3 CPU、CDNA3 GPU整合在了一顆芯片之內，統一使用HBM3內存，彼此全部使用Infinity Fabric高速總線互聯，從而大大簡化了整體結構和編程應用。

這種統一架構有著多方面的突出優勢：

一是統一內存，CPU、GPU彼此共享，無需重復拷貝傳輸數據，無需分開存儲、處理。

二是共享無限緩存，數據傳輸更加簡單、高效。

三是動態功耗均衡，無論算力上側重CPU還是GPU，都可以即時調整，更有針對性，能效也更高。

四是簡化編程，可以將CPU、GPU納入統一編程體系，進行協同加速，無需單獨進行編程調用。

對比H100，MI300A只需550W功耗就能在OpenFOAM高性能計算測試中取得多達4倍的優勢，不同實際應用中可領先10-20％。對比最新的GH200，MI300A 760W峰值功耗下的能效優勢，更可以達到2倍。

MI300A已經在美國勞倫斯利弗莫爾國家實驗室的新一代超級計算機El Capitan中安裝。它的設計目標是成為全球第一套200億億次超算，這也是第二套基于AMD平臺的百億億次級超算。

低功耗AI將是新追求

目前，人工智能芯片已經在云端和智能設備終端普及，例如在云端以Nvidia和AMD為代表的GPU和以Intel/Habana為代表的人工智能加速芯片；而在終端智能設備則主要是在SoC上的人工智能加速IP，但是無論是GPU和SoC上的人工智能加速IP，都沒有考慮到低功耗的需求，因此在未來的物聯網和智能設備中的人工智能都需要有新的低功耗相關的設計。

在智能設備和物聯網應用中的低功耗人工智能需要把功耗降到非常低，從而能實現實時在線（always-on）的人工智能服務。這里所謂的always-on，指的就是人工智能需要永遠可用，而不需要用戶主動打開后才工作。這一方面需要相關的傳感器要一直打開從而實時檢測相關模態的信號，另一方面也需要人工智能能做到低功耗。

傳統設計中，傳感器的功能就是負責高性能信號采集，并且把采集到的信號傳輸到處理器（SoC或者MCU）上去做進一步計算和處理，而傳感器本身并沒有計算能力。然而，傳統設計的假設是傳感器在打開時相關的處理器就要同時打開，而這并不能滿足always-on AI的需求，因為SoC和MCU如果一直在運行AI算法的話對于電池的消耗很大。另一方面，從實際角度來看，這類always-on人工智能應用主要是希望人工智能一直運行從而一旦重要的相關事件發生時可以實時響應（例如IMU檢測到用戶在開車則把智能設備的推送通知關掉等），但是事實上這類相關事件的發生頻率并不會很高，如果一直把SoC或者MCU的人工智能模塊打開，絕大多數時候AI模型的輸出都是“未檢測到事件”。

結合這兩點，運行在傳感器端的計算就在變得越來越得到重視。首先，在always-on的低功耗人工智能中，無論如何傳感器是需要一直打開的，因此如果傳感器能有人工智能計算能力，那么可以讓人工智能模型運行在傳感器端，而無需一直打開SoC或者MCU上面的人工智能模塊。另外，在傳感器端運行人工智能也可以避免傳感器和SoC/MCU之間一直傳輸數據，從而進一步降低功耗。最后，在傳感器端的人工智能模塊可以做到為傳感器量身定制而無需考慮通用性，因此可以為最適合傳感器的人工智能算法做定制化優化，從而實現非常高的能效比。

當然，傳感器端的人工智能也有其自己的局限。一方面從性能和成本上來說，通常傳感器端的計算和存儲空間都較小，人工智能模塊無法做到支持大模型，因此模型的性能會比較有限。另一方面，如前所述傳感器端的人工智能也很難做到支持通用模型，而往往只會支持一些特定的算子和模型結構。

綜上所述，傳感器端的人工智能可以做到低功耗，但是其模型性能也較為有限；但是另一方面低功耗人工智能場景中，真正需要處理的相關事件的發生頻率也并不高。結合這兩點，傳感器端人工智能最適合運行一些較為專用的小模型，用于過濾掉絕大多數的無關事件；而在傳感器端人工智能檢測到相關事件后，傳感器可以喚醒SoC或MCU上的人工智能進行下一步的確認，從而同時滿足低功耗和always-on的需求。

在圖像傳感器領域，Sony已經推出了IMX500系列傳感器，其中把傳感器芯片和集成了人工智能計算能力的邏輯芯片做了堆疊，從而可以把像素信號傳輸給邏輯芯片上的人工智能計算引擎，從而傳感器的輸出可以是圖像，可以是人工智能模型的輸出，或者是兩者的結合。這樣一來，就可以讓傳感器運行在低功耗always-on狀態，而僅僅當其模型輸出符合某些特定條件（例如檢測到人臉）時才去喚醒MCU或者SoC做下一步動作。我們預計，Sony將會在接下來的傳感器芯片中進一步加強其人工智能能力，從而增強在這個領域的領先地位。

傳感器和人工智能結合的另一個例子是ST推出的IMU系列產品。ST在擁有相關人工智能特性的IMU中集成了機器學習核（Machine Learning Core）和有限狀態機（Finite State Machine），從而可以用非常高效的方式支持IMU上直接進行人工智能計算。ST目前支持的人工智能算法主要是決策樹算法，并且可以支持IMU信號的一些重要特征提取（例如信號幅度，信號方差等），從而能在IMU上直接實現用戶活動分類（例如靜止，行走，騎車，駕駛汽車等等分類），這樣能在檢測到相關事件時喚醒MCU/SoC進行下一步操作。根據ST公布的資料，MLC的功耗僅僅在微瓦數量級，從而能很好地支持always-on需求。當然，另一方面我們也看到決策樹算法事實上的能力有限，難以對于復雜的活動進行建模，因此如同我們之前討論的，這里的IMU傳感器內人工智能適合完成事件的初篩來過濾掉無關事件，而更復雜的分類和確認可以通過運行在MCU或者SoC上的模型來完成。

登入后，方可留言>>

行業動態

特斯拉AI5芯片采用雙代工策略，2026年試產

英偉達加入印度深度科技聯盟支持初創企業發展

業績分化顯著 LED芯片行業步入高質量發展分水嶺

熱讀文章

苗圩出席統籌推進疫情防控和產業轉型升級促進制造業通信業穩定發展發布會

一圖讀懂2020年《政府工作報告》

工業富聯：擬7763萬美元收購鴻海精密美國子公司相關資產