隨著人工智能技術(shù)的飛速發(fā)展,尤其是大模型(LLM)的廣泛應(yīng)用,AI對網(wǎng)絡(luò)架構(gòu)提出了更高的要求。2028年,AI網(wǎng)絡(luò)架構(gòu)將朝著“高吞吐、高Radix、高可靠、低時延、低功耗、低成本”的“三高三大”方向持續(xù)演進(jìn)。在這一背景下,橫向擴(kuò)展(Scale-Out)和縱向擴(kuò)展(Scale-Up)成為構(gòu)建AI網(wǎng)絡(luò)架構(gòu)的兩大關(guān)鍵策略。本文將探討這兩種擴(kuò)展方式在2028年的技術(shù)趨勢及其對AI網(wǎng)絡(luò)架構(gòu)的影響。
縱向擴(kuò)展(Scale-Up):提升單點(diǎn)算力密度
定義與特點(diǎn)
縱向擴(kuò)展(Scale-Up)是指通過增加單個節(jié)點(diǎn)的資源(如CPU核心、GPU、內(nèi)存等)來增強(qiáng)系統(tǒng)能力。這種架構(gòu)通常用于高性能計算場景,如AI大模型訓(xùn)練,其特點(diǎn)是高帶寬、低延遲和硬件緊耦合。
2028年技術(shù)趨勢
芯片架構(gòu)演進(jìn)
英偉達(dá)計劃在2028年推出Feynman架構(gòu),該架構(gòu)將顯著提升單個GPU的性能。這種架構(gòu)演進(jìn)將使單個節(jié)點(diǎn)的算力密度大幅提高,支持更大規(guī)模的模型訓(xùn)練。
224G光互連技術(shù)將成為主流,相比112G光鏈路,224G具有更低的功耗、延遲和成本。
光互連技術(shù)
224G光互連技術(shù)將廣泛應(yīng)用于框內(nèi)和框間連接,支持更高的帶寬和更低的延遲。這種技術(shù)不僅提高了單個節(jié)點(diǎn)的性能,還降低了系統(tǒng)的整體能耗。
無DSP的LPO(Linear-drive Pluggable Optics)和NPO(No Power Optics)技術(shù)將逐漸取代傳統(tǒng)的CPO(Co-packaged Optics),因?yàn)樗鼈冊诠?、延遲和成本方面具有顯著優(yōu)勢。
應(yīng)用場景
縱向擴(kuò)展架構(gòu)將主要用于AI大模型的訓(xùn)練和高性能計算(HPC)場景,這些場景對單點(diǎn)算力密度和通信效率要求極高。
橫向擴(kuò)展(Scale-Out):構(gòu)建大規(guī)模分布式系統(tǒng)
定義與特點(diǎn)
橫向擴(kuò)展(Scale-Out)是指通過增加更多的節(jié)點(diǎn)來分配工作負(fù)載。這種架構(gòu)通過分布式計算實(shí)現(xiàn)大規(guī)模并行處理,適用于需要處理海量數(shù)據(jù)和復(fù)雜任務(wù)的場景。
2028年技術(shù)趨勢
網(wǎng)絡(luò)架構(gòu)演進(jìn)
從傳統(tǒng)的三層CLOS結(jié)構(gòu)向二層CLOS結(jié)構(gòu)轉(zhuǎn)變,支持更大規(guī)模的組網(wǎng)。例如,采用Radix=512的100T交換芯片,可以實(shí)現(xiàn)12.8萬卡的組網(wǎng)能力。
多端口AI-NIC(網(wǎng)絡(luò)接口卡)將成為主流,800G AI-NIC將拆分為4個200G端口,接入4個獨(dú)立的平面。
光模塊技術(shù)
2028年,400G及以上光模塊市場規(guī)模將突破180億美元。1.6T和3.2T光模塊將逐漸普及,支持更高的帶寬和更低的延遲。
Retimed可插拔光模塊將繼續(xù)優(yōu)化,以滿足AI網(wǎng)絡(luò)對功耗和密度的要求。
融合架構(gòu)
Scale-Out與Scale-Up的融合將成為未來AI網(wǎng)絡(luò)架構(gòu)的重要趨勢。例如,華為提出的UB-Mesh架構(gòu)通過融合這兩種擴(kuò)展方式,實(shí)現(xiàn)了一層CLOS支持10萬卡的組網(wǎng)能力。
應(yīng)用場景
橫向擴(kuò)展架構(gòu)將廣泛應(yīng)用于數(shù)據(jù)中心內(nèi)部和數(shù)據(jù)中心間的互聯(lián)(DCN),支持大規(guī)模分布式AI模型的訓(xùn)練和推理。
融合趨勢:Scale-Up與Scale-Out的協(xié)同演進(jìn)
融合的必要性
在AI大模型訓(xùn)練和推理中,單靠縱向擴(kuò)展或橫向擴(kuò)展都無法滿足日益增長的算力需求。因此,未來AI網(wǎng)絡(luò)架構(gòu)將更多地采用融合架構(gòu),通過結(jié)合縱向擴(kuò)展的高帶寬、低延遲和橫向擴(kuò)展的分布式計算能力,實(shí)現(xiàn)更高效、更靈活的算力擴(kuò)展。
技術(shù)實(shí)現(xiàn)
超節(jié)點(diǎn)架構(gòu)
超節(jié)點(diǎn)架構(gòu)通過將多個高性能節(jié)點(diǎn)(如GPU集群)組合成一個強(qiáng)大的計算單元,再通過橫向擴(kuò)展實(shí)現(xiàn)大規(guī)模并行處理。這種架構(gòu)在AI大模型訓(xùn)練中表現(xiàn)出色,能夠顯著提高訓(xùn)練效率和模型性能。
光互連技術(shù)
224G光互連技術(shù)將支持超節(jié)點(diǎn)內(nèi)部和超節(jié)點(diǎn)之間的高效通信。通過優(yōu)化光模塊和光互連設(shè)計,可以進(jìn)一步降低延遲和功耗。
借助AI技術(shù)提升網(wǎng)絡(luò)自身的智能化水平,實(shí)現(xiàn)網(wǎng)絡(luò)的智能自治。例如,意圖驅(qū)動網(wǎng)絡(luò)(IDN)和數(shù)字孿生網(wǎng)絡(luò)(DTN)技術(shù)將簡化網(wǎng)絡(luò)管理操作流程,提升網(wǎng)絡(luò)運(yùn)行效率。
未來展望:2028年AI網(wǎng)絡(luò)架構(gòu)的關(guān)鍵特征
高吞吐與高Radix
2028年的AI網(wǎng)絡(luò)架構(gòu)將支持更高的吞吐量和更大的Radix(交換芯片的端口數(shù)),以滿足大規(guī)模分布式計算的需求。例如,Radix=512的100T交換芯片將支持12.8萬卡的組網(wǎng)能力。
低時延與低功耗
低時延和低功耗是AI網(wǎng)絡(luò)架構(gòu)的重要目標(biāo)。通過采用224G光互連技術(shù)和無DSP的LPO/NPO技術(shù),可以顯著降低延遲和功耗。例如,224G光鏈路相比112G光鏈路,可以節(jié)省60%的功耗和120ns的延遲。
高可靠與低成本
未來AI網(wǎng)絡(luò)架構(gòu)將更加注重可靠性和成本效益。通過優(yōu)化網(wǎng)絡(luò)架構(gòu)和采用先進(jìn)的光互連技術(shù),可以提高系統(tǒng)的可靠性和可維護(hù)性。同時,大規(guī)模生產(chǎn)和技術(shù)成熟將降低光模塊和網(wǎng)絡(luò)設(shè)備的成本。
總結(jié)
2028年,AI網(wǎng)絡(luò)架構(gòu)將在縱向擴(kuò)展和橫向擴(kuò)展的協(xié)同演進(jìn)中實(shí)現(xiàn)重大突破??v向擴(kuò)展將通過高性能芯片架構(gòu)和光互連技術(shù)提升單點(diǎn)算力密度,而橫向擴(kuò)展將通過分布式計算和優(yōu)化的網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)大規(guī)模并行處理。兩者的融合將成為未來AI網(wǎng)絡(luò)架構(gòu)的重要特征,支持更大規(guī)模的模型訓(xùn)練和推理任務(wù)。隨著技術(shù)的不斷進(jìn)步,AI網(wǎng)絡(luò)架構(gòu)將朝著高吞吐、高Radix、高可靠、低時延、低功耗和低成本的方向持續(xù)演進(jìn),為人工智能的廣泛應(yīng)用提供堅實(shí)的基礎(chǔ)。