<pre id="k8ye9"><tfoot id="k8ye9"><fieldset id="k8ye9"></fieldset></tfoot></pre>
  1. <blockquote id="k8ye9"></blockquote>

    <wbr id="k8ye9"><sup id="k8ye9"></sup></wbr>

        亚洲人成色777777老人头,久久精品欧美日韩精品,久艹视频免费看,国产成a人片在线观看视频下载,凸凹人妻人人澡人人添,四虎影视永久在线精品,农民人伦一区二区三区,午夜福制92视频
        歡迎訪問深圳市中小企業公共服務平臺電子信息窗口

        阿里云為LLM自研以太網網絡架構,替換NVLink

        2024-07-01 來源:電子工程專輯
        33614

        阿里云近期宣布了一項重大技術創新,展示了其為大型語言模型(LLM)訓練設計的數據中心網絡架構,該架構基于以太網技術,已在生產環境中穩定運行長達8個月,標志著AI基礎設施領域的一大突破。這一設計旨在優化數據傳輸效率,解決傳統網絡在處理大規模AI模型訓練時面臨的諸多挑戰,特別是針對突發流量處理和網絡負載均衡的問題。

        專為GPU同步設計,應對LLM訓練流量挑戰

        阿里云的高級工程師及網絡研究科學家翟恩南通過GitHub公布了題為《Alibaba HPN: A Data Center Network for Large Language Model Training》的研究論文,該論文將在8月舉辦的SIGCOMM會議上發表。(SIGCOMM是計算機協會數據通信特別興趣小組的年度聚會)

        undefined

        論文揭示,傳統云計算流量通常涉及數百萬個小規模流(小于10Gbps),而LLM訓練則會在每個主機上產生周期性的突發流,流量高達400Gbps。這種特性導致了等價多路徑路由(ECMP)技術中常見的哈希極化問題,影響了負載均衡和帶寬的有效利用。

        因此,阿里云自主研發了“高性能網絡”(HPN),通過減少ECMP的使用,有效避免了哈希極化,同時精確選擇網絡路徑以適應大規模流量需求。

        考慮到GPU在LLM訓練時需要高度同步工作,阿里云的網絡設計特別考慮到了單點故障問題,使用了一款51.2 Tb/sec的以太網單芯片ToR(Top of Rack,ToR)交換機。每個用于訓練的主機配備了8個GPU和9個網絡接口卡(NIC),其中每個NIC有兩個200GB/s的端口,確保了即使在單個交換機故障的情況下也能維持通信。

        undefined

        通過“軌道”設計,每個NIC對應一個GPU,實現了每個加速器享有400Gb/s的RDMA網絡吞吐量,整體帶寬達到了3.2Tb/s,最大化了GPU的PCIe Gen5 x16接口潛力。

        以太網聯盟與開放標準的勝利

        有媒體認為,阿里云選擇以太網是為了避免過度依賴特定供應商,并利用整個以太網聯盟的力量實現更快的發展。這一決策與越來越多廠商開始支持以太網,逃離英偉達(NVIDIA)NVlink在云端AI互聯上的壟斷趨勢相吻合。

        盡管放棄了用于主機間通信的NVlink,阿里云仍然在主機內網絡中使用了Nvidia的專有技術,因為主機內GPU之間的通信需要更大的帶寬。然而,由于通道之間的通信速度較慢,每個主機提供的“專用400 Gbps RDMA網絡吞吐量,總帶寬達到3.2 Tbps”,足以最大化PCIe Gen5x16顯卡的帶寬。

        undefined

        阿里云選擇以太網作為基礎,還因為以太網聯盟的支持和開放標準的長期優勢。這一決策得到了AMD、Broadcom、Cisco、Google、HPE、Intel、Meta和Microsoft等科技巨頭的廣泛歡迎,這些公司正通過Ultra Accelerator Link聯盟等倡議,共同推動開放標準網絡技術的發展,以期對抗NVIDIA在AI網絡領域的主導地位。

        數據中心的獨特設計

        阿里云的數據中心采用“Pod”模式,每個Pod可容納15,000個GPU,與HPN結合,完美匹配了18MW建筑的功率限制。光纖長度的優化設計允許使用成本更低的多模光收發器。盡管HPN的引入增加了布線復雜度,但阿里云已經在探索更高效的設計,如下一代網絡架構,預計將配備更高容量的單芯片交換機。

        undefined

        此外,阿里云在數據中心還采用了51.2Tb/s的以太網單芯片交換機,顯著提升了網絡吞吐量和穩定性,同時降低了能耗。然而,單芯片交換機在運行過程中面臨高溫難題,市場上缺乏有效散熱解決方案。

        undefined

        為此,阿里云自主研發了以更多支柱為中心的均熱板散熱器,通過優化結構設計,有效控制了芯片溫度,確保了交換機的穩定運行。

        然而,HPN仍存在一些缺點,最大的缺點是其復雜的布線結構。每個主機有九個NIC,每個NIC連接到兩個不同的ToR交換機,這增加了插孔和端口混淆的可能性。盡管如此,這項技術據稱比NVlink更經濟,從而使任何建立數據中心的機構都能在設置成本上節省大量資金(甚至可能使其避免使用Nvidia技術,特別是在中美芯片戰中受到制裁的公司)。




        相關文章
        主站蜘蛛池模板: 亚洲中文字幕精品一区二区三区| 中国农村真卖bbwbbw| 亚洲欧美日韩国产手机在线| 免费无码AV一区二区波多野结衣 | 绝顶丰满少妇av无码| 给我免费观看片在线| 97久久综合亚洲色hezyo| 亚洲av综合色区在线观看| 久久精品国产亚洲av麻豆软件| 欧美性受xxxx白人性爽| 最新精品国偷自产在线美女足| 国产91精品一区二区麻豆| 亚洲av片在线免费观看| 日本一区二区不卡精品| 五月天国产成人av免费观看| 久久天天躁夜夜躁一区| 精品视频福利| 亚洲国产成人自拍视频网| 国产中文三级全黄| 国产乱码精品一区二区上| 国产激情一区二区三区不卡| 精品三级在线| 国产又黄又爽又不遮挡视频| av亚洲一区二区在线| 国产一区二区三区免费观看| 亚洲成年av天堂动漫网站| 国产一区二区三区黄色片| 夜鲁鲁鲁夜夜综合视频| 日韩精品国产中文字幕| 秋霞人妻无码中文字幕| 中文字幕有码日韩精品| 国产精品蜜臀av在线一区| 欧美成aⅴ人高清免费| 日韩精品无码去免费专区| 国产乱子伦农村xxxx| 国产精品亚洲mnbav网站| 国产精品自产拍在线播放| 欧美丰满熟妇hdxx| 亚洲成av人片天堂网无码| 久热中文字幕在线| 亚洲精品成人久久av|