聊聊DPU的經(jīng)濟學(xué)原理和必然性
所謂DPU,全稱是數(shù)據(jù)處理單元或者I/O處理單元。它的出現(xiàn)絕非偶然,而是經(jīng)濟因素與架構(gòu)需求雙重驅(qū)動的必然結(jié)果。
如今的芯片性能已經(jīng)沒多少發(fā)展空間,所以再由CPU承擔(dān)網(wǎng)絡(luò)和存儲功能會浪費處理資源,這樣的背景讓DPU有了存在的理由。除此之外,對服務(wù)器工作負載的安全保護,特別是多租戶環(huán)境下的安全機制,更是讓DPU成為不可或缺的最優(yōu)解。于是乎,專為CPU分憂的DPU就這樣有了自己難以動搖的立足之地。
亞馬遜云科技發(fā)明了Nitro DPU,谷歌和英特爾則合作開發(fā)出"Mount Evans"IPU,AMD收購了賽靈思和Pensando(兩家都有自己的DPU),英偉達買下Mellanox Technology……種種行動的背后,總有共通的理由。DPU正成為網(wǎng)絡(luò)中的控制點,計算與存儲的守門人,各家超大規(guī)模服務(wù)商和IT供應(yīng)商甚至希望讓DPU成為一切系統(tǒng)架構(gòu)的樞紐。
DPU的經(jīng)濟理論非常完備,應(yīng)用層面的超大規(guī)模實踐也相當(dāng)豐富。唯一的遺憾就是,我們沒有多少數(shù)據(jù)能對DPU的成本/收益做出分析和證明。英偉達顯然意識到了這個問題,并使用其BlueField-2 E系列DPU展開一輪測試。該DPU采用雙100 Gb/s端口,與常規(guī)SmartNIC保持一致。
要算經(jīng)濟賬,先算能源賬。近一段時間歐洲的電價上漲速度要高于北美,所以多用點DPU或多或少能幫歐洲用戶省點能源。但根據(jù)英偉達存儲營銷總監(jiān)John Kim的說法,他們這次測試其實主要比較的是集群在使用DPU和不用DPU時的各自價格/性能比,參考的都是加利福尼亞州平均15美分每度的電價。也就是說,DPU的加入讓系統(tǒng)能把網(wǎng)絡(luò)和存儲功能從服務(wù)器節(jié)點CPU身上剝離出來,借此縮小服務(wù)器空間占用、降低電力消耗,進而達成更佳運營成本。
Kim在演示文稿中列出了將Open vSwithc(OVS)從服務(wù)器管理程序移交給BlueField-2 DPU后的效果,而后又展示了愛立信如何將5G基站中的用戶平面功能(UPF)工作負載由服務(wù)器CPU移交給獨立機箱內(nèi)的DPU。在這兩個場景下,英特爾分別計算了由1000臺設(shè)備構(gòu)成的集群在使用和不使用DPU情況下的運行效果,電價始終以加州當(dāng)?shù)仄骄鶖?shù)字為準。另外,英偉達還分別計算了服務(wù)器上運行任一工作負載所對應(yīng)的CPU核心數(shù)量、消耗電量,以及在DPU上運行時消耗的電量。以三年運行為期前后相減,就得出了兩個案例在引入DPU后具體能省下多少能源成本。請注意,英偉達在這里并沒有測算DPU省下的CPU核心資源被用作其他處理任務(wù)時,又能額外產(chǎn)生多少收益。
以下是將OVS移交DPU后帶來的性能提升與電力節(jié)約數(shù)據(jù):
此次基準測試使用的是配備兩塊英特爾"Cascade Lake"至強SP-6248 Gold處理器的戴爾PowerEdge R740服務(wù)器。這款處理器擁有20個核心,單核運行主頻為2.5 GHz,BlueField-2 DPU則搭載兩個性能相對一般的25 Gb/s以太網(wǎng)端口。在服務(wù)器上運行OVS共需要18個線程和9個核心,占設(shè)備全部80個線程和40個核心中的22.5%。其理論功耗占比同樣為22.5%,在服務(wù)器整體的432瓦功率中占據(jù)150瓦。而通過將OVS工作負載轉(zhuǎn)移給DPU,OVS在運行時僅消耗305瓦。如果將節(jié)約下來的電力推廣到全部10000個節(jié)點上,那么三年期節(jié)約下的能源成本將高達500萬美元。
重要的是,OVS交換機的吞吐量由原本的20 Gb/s變?yōu)榻咏麯PU雙端口的峰值理論性能,即49 Gb/s。雖然這代表著顯著的性能優(yōu)勢,但并不清楚這種對網(wǎng)絡(luò)固有性能的挖掘會不會真正改善應(yīng)用程序的實際表現(xiàn)。測試中使用的至強SP-6248 Gold處理器標價為3622美元,占用的9個核心相當(dāng)于價值814.50美元,在服務(wù)器的全部組件中占比22.5%。
在愛立信那邊的UPF基準測試中,設(shè)施的瓦數(shù)更低、服務(wù)器價格也沒英偉達那么高,但節(jié)約下來的成本仍然可觀,具體如下圖所示:
在這里,DPU最重要的作用、也可以說是目前IT部門最關(guān)心的部分,就是在數(shù)據(jù)流經(jīng)各運行應(yīng)用程序的服務(wù)器時、以及服務(wù)器對客戶設(shè)備上的應(yīng)用程序和數(shù)據(jù)發(fā)起訪問時,對數(shù)據(jù)進行加密。為此,英偉達還專門設(shè)計了一個IPSec加密場景,其中對服務(wù)器和客戶端的應(yīng)用程序進行了加密,想看看使用DPU后到底能節(jié)省多少電力。結(jié)果詳見下圖:
這組測試使用的是搭載兩塊英特爾"Ice Lake"至強SP-830處理器的服務(wù)器。該處理器提供40個核心,單核運行主頻為2.3 GHz;附帶一塊BLueFIeld-2卡,采用兩個100 Gb/s以太網(wǎng)端口和16 GB獨立內(nèi)存。在這套配置中,服務(wù)器端IPSec加密和解密共占用6個物理核心(占總核心數(shù)量的7.5%),而客戶端則需要占用20個核心(占比25%)。我們不清楚CPU和DPU在運行IPSec時是否存在性能差異,但根據(jù)英偉達那邊的算法,在將這部分負載由CPU轉(zhuǎn)移給DPU之后,三年期10000節(jié)點所節(jié)約的能源成本將高達1420萬美元。
以往,當(dāng)DPU制造商發(fā)布這類測試結(jié)果時,我們總會抱怨其中缺少前后場景下的直接成本,只給出不知真假的結(jié)論性解釋。這次不同,Kim制作了一份表格,其中列出了10000節(jié)點集群在無DPU和有DPU兩種運行配置下的具體成本??梢钥吹?,英偉達選擇的是非IPSec工作負載,也就是計算集群上最常見的任務(wù)類型,這時候DPU能從單服務(wù)器全部80個核心中解放出26個核心。換句話說,只要配合一個DPU集群,就能讓8200個節(jié)點構(gòu)成的加速集群獲得與1000節(jié)點集群相同的軟件內(nèi)IPSec運行效果。
至少從表格來看,搭載雙100 Gb/s端口的BlueField-2 E系列DPU的增量成本為1500美元。相比之下,典型的雙端口SmartNIC市場價大約是2500美元,單100 Gb/s端口的SMartNIC則在1000美元左右。(英偉達并沒有在測試中列出網(wǎng)絡(luò)設(shè)備的指導(dǎo)價、OEM價或零售價。)
通過這次比較,我們可以肯定地認為在為10000節(jié)點集群中的各個節(jié)點添加BlueField-2 DPU之后,即可大大減少支持IPSec加密與解密工作負載所需要的節(jié)點數(shù)量。根據(jù)英偉達的計算,使用DPU能夠?qū)⒎?wù)器硬件的資本支出降低2.4%。
最重要的是,服務(wù)器的運行功耗方面還能再省下1310萬美元。而且假定電力使用效率為1.5,那么DPU集群還能在數(shù)據(jù)中心冷卻層面再節(jié)約660萬美元。將資本支出和節(jié)電效能相加,DPU將在三年之內(nèi)為基礎(chǔ)設(shè)施運營方省下2220萬美元,相當(dāng)于總體擁有成本的15%。這還沒有考慮到由此帶來的性能提升、數(shù)據(jù)中心對物理空間需求的降低,以及服務(wù)器管理負擔(dān)的削減。
這樣的結(jié)果無疑引人深思??雌饋?,歷史趨勢正朝著拆分和轉(zhuǎn)移的方向前進,目前越來越多的工作負載開始從CPU轉(zhuǎn)向接入PCI-Express總線的各種加速器。但正如谷歌和亞馬遜云科技所指出,片上系統(tǒng)(SoC)其實就是一種系統(tǒng)級封裝(SiP),是一種新的插槽形式。隨著我們在2.5D和3D芯片制造方面的發(fā)展成熟,UCI-Express將在插槽之內(nèi)實現(xiàn)全面互連,屆時DPU將與CPU、GPU和FPGA一道以獨立單元的形式共存于同一塊芯片當(dāng)中。千萬不要驚訝,這種重新集成能夠?qū)㈦娐肪o密封裝在一起,由此將延遲控制在更低水平。
而且絕對可以肯定的是,在未來的系統(tǒng)架構(gòu)中,涉及網(wǎng)絡(luò)、存儲、工作負載虛擬化以及安全的功能將不再由CPU完成。也許到那個時候,CPU頂著的"中央處理單元"名頭也該換一換了。我們始終相信,DPU才是未來系統(tǒng)架構(gòu)的中心和樞紐,負責(zé)分配對計算和存儲資源的訪問權(quán)限。而我們目前熟知的CPU將轉(zhuǎn)化為串行處理單元,與碩大而又緩慢的內(nèi)存結(jié)對運作。