12月22日消息,對高算力無限渴求的AI時代,最關鍵的已經不是單卡性能,而是盡可能高效地堆疊足夠多的加速卡,構成龐大的集群。
除了NVIDIA、AMD,國產廠商也正在這方面全力突破,華為、摩爾線程、中科曙光等都是突出代表。
近日,中科曙光正式發并展示了scaleX萬卡超級群,這也是國產萬卡基AI集群的首次真機亮相。
不同于華為封閉式的全自研集群,中科曙光scaleX萬卡超集群旨在構建開放、兼容、高密度的超大規模算力基礎設施。
它支持多品牌加速卡、主流計算生態,已經適配優化400多個主流大模型、世界模型等,可用于大模型訓練、金融風控、地質能源勘探、科學智能等各種場景。
中科曙光scaleX萬卡超集群由多個scaleX640超節點(單機柜640卡)、scaleFabirc高速網絡互連而成,總計擁有10240塊加速卡,總算力超過5EFlops(500億億次每秒)。
HBM內存總容量超過650TB,總帶寬超過18PB/s;片間互連總帶寬超過4.5PB/s,柜間互連總帶寬超過500TB/s。
單個超節點的基本構成是千卡級計算單元,采用“一拖二”高密架構設計,實現單機柜640卡超高速一致性互連,雙計算柜則組成1280卡計算單元。
散熱方面,采用超高速正交架構、超高密度刀片、浸沒相變液冷、高壓直流供電等多技術融合創新設計,成為業界超高集成度的液冷超節點。
全浸沒式相變液冷技術,將服務器完全浸在特制液體中,中間液體冷凝換熱裝置CDM的散熱能力高達1.72MW(兆瓦)。
單機柜算力密度相比業界其他超節點最大提升20倍,PUE值低至1.04。
公開信息顯示,中科曙光子公司曙光數創擁有139項液冷相關專利,是國內唯一實現大規模商業化液冷部署的企業。
網絡方面,中科曙光自研的scaleFabric網絡芯片可提供400Gb/s的超高帶寬、低于1微秒的端側通信延遲、260ns的交換芯片轉發延時,超節點間的通信性能達到業內先進水平,相比傳統的InfiniBand網絡提升2.33倍。
基于面向大規模組網優化的網絡協議、超高交換容量的網絡芯片、極致的鏈路可靠性優化,集群規模得以擴展到10萬卡以上,同時網絡總體成本降低30%。
優化方面,超級隧道設計實現了芯片級、系統級、應用級的三級協同優化,通過BurstBuffer、XDS等技術,大模型訓推效率提升30-40%,GPU利用率提升最多55%,同時還有AI應用親和、AI數據加速。
可靠性方面,一體化、智能化的集群管控,可大大提高MTBF(平均故障間隔時間)、降低MTTR(平均故障修復時間),集群長期可用性達到99.99%,平均每30天的不可用時間小于4分鐘。
版權與免責聲明:
凡本站注明“來源:智能制造網”的所有作品,均為浙江興旺寶明通網絡有限公司-智能制造網合法擁有版權或有權使用的作品,未經本站授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:智能制造網”。違反上述聲明者,本站將追究其相關法律責任。
本站轉載并注明自其它來源(非智能制造網)的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉載時,必須保留本站注明的作品第一來源,并自負版權等法律責任。如擅自篡改為“稿件來源:智能制造網”,本站將依法追究責任。
鑒于本站稿件來源廣泛、數量較多,如涉及作品內容、版權等問題,請與本站聯系并提供相關證明材料:聯系電話:0571-89719789;郵箱:1271141964@qq.com。