浪潮發(fā)布全球首款2U8 NVLink? GPU AI服務(wù)器NF5288M5,解析AI計(jì)算設(shè)備的設(shè)計(jì)與價(jià)值
如今,隨著人工智能的迅猛發(fā)展,對(duì)計(jì)算能力的渴求急劇上升。然而,現(xiàn)有的計(jì)算平臺(tái)卻面臨著不少挑戰(zhàn)。浪潮與NVIDIA攜手推出的這款產(chǎn)品,宛如一把解鎖難題的鑰匙,讓人充滿期待。
AI發(fā)展現(xiàn)狀與計(jì)算平臺(tái)困境
AI訓(xùn)練進(jìn)展迅速,對(duì)計(jì)算能力的需求急劇上升。眾多AI研發(fā)企業(yè)在開展大規(guī)模模型訓(xùn)練時(shí),往往面臨計(jì)算資源不足的問題。市場(chǎng)上的AI計(jì)算平臺(tái)存在通信效率不高、架構(gòu)不夠靈活、計(jì)算密度較低等問題。特別是對(duì)于一些小型AI創(chuàng)業(yè)公司來(lái)說(shuō),由于預(yù)算限制,所購(gòu)計(jì)算平臺(tái)效率不高,這極大地制約了它們的業(yè)務(wù)拓展。
新環(huán)境對(duì)異構(gòu)服務(wù)器提出了多種需求。科研機(jī)構(gòu)與商業(yè)公司的AI應(yīng)用各有特點(diǎn),需求差異顯著。比如,藥物研發(fā)中訓(xùn)練AI模型所需的數(shù)據(jù)并行處理方式,與自動(dòng)駕駛領(lǐng)域所采用的并行處理模式截然不同。
應(yīng)對(duì)多樣的AI訓(xùn)練場(chǎng)景需求
某些模型在訓(xùn)練過(guò)程中高度依賴GPU的加速功能。特別是在圖像識(shí)別等應(yīng)用中,處理大量圖像數(shù)據(jù)時(shí),GPU強(qiáng)大的并行計(jì)算能力是快速完成任務(wù)的必要條件。而對(duì)于其他一些任務(wù),比如自然語(yǔ)言處理中的某些程序,就需要CPU和GPU共同協(xié)作,通過(guò)迭代的方式來(lái)提升工作效率。
模型訓(xùn)練過(guò)程中,收斂效果顯著依賴于眾多GPU資源。例如,某些超大規(guī)模氣象預(yù)測(cè)模型,需要由200多塊GPU卡構(gòu)成的集群進(jìn)行并行運(yùn)算,才能確保在限定時(shí)間內(nèi)達(dá)到理想的收斂水平。
極致的計(jì)算架構(gòu)效率提升
舍棄非同構(gòu)的設(shè)計(jì),轉(zhuǎn)向采用同構(gòu)架構(gòu)。在這個(gè)平臺(tái)中,2U的空間足以容納8塊特定的GPU。它無(wú)需依賴CPU即可實(shí)現(xiàn)直接的點(diǎn)對(duì)點(diǎn)通信。以大型互聯(lián)網(wǎng)公司的數(shù)據(jù)中心為例,這種通信模式顯著降低了異構(gòu)通信的頻率。
該平臺(tái)兼容新型GPU,并且具備較高的互連帶寬。它首次引入了對(duì)新型GPU系列的支持,實(shí)現(xiàn)了GPU之間300GB/s的高速互連和低延遲。這對(duì)于深度學(xué)習(xí)領(lǐng)域的研究室來(lái)說(shuō),多GPU并行處理能力顯著增強(qiáng),從而顯著減少了模型訓(xùn)練所需的時(shí)間。
提升超大規(guī)模應(yīng)用效益
降低數(shù)據(jù)中心資源消耗。在使用超大規(guī)模AI訓(xùn)練集群或高性能計(jì)算集群時(shí),可以有效節(jié)約基礎(chǔ)設(shè)施資源。例如,大型云計(jì)算服務(wù)商能夠利用這一點(diǎn),優(yōu)化數(shù)據(jù)中心的空間布局,減少開支。
提高服務(wù)器運(yùn)算效能。借助計(jì)算架構(gòu)的改進(jìn)等措施,滿足AI應(yīng)用對(duì)強(qiáng)大計(jì)算能力的不斷追求。眾多科技企業(yè)采納此技術(shù),有效提升了產(chǎn)品研發(fā)速度,從而在激烈的市場(chǎng)競(jìng)爭(zhēng)中占據(jù)了有利地位。
靈活的計(jì)算拓?fù)鋬?yōu)勢(shì)
對(duì)CPU的連接配置進(jìn)行優(yōu)化。使用PCIe電纜將CPU與GPU相連,能夠方便地調(diào)整帶寬和連接數(shù)目。對(duì)于類似小型AI工作室這樣的機(jī)構(gòu),可以依據(jù)具體項(xiàng)目需求靈活分配PCIe資源,以此減少開支。
增加GPU的數(shù)量在垂直方向上。這允許采用不同的CPU管理GPU的方式,并支持最多擴(kuò)展到16個(gè)GPU。例如,隨著中型AI企業(yè)業(yè)務(wù)的擴(kuò)大,它們可以方便地調(diào)整計(jì)算資源的配置。
面臨的設(shè)計(jì)挑戰(zhàn)與解決辦法
供電散熱問題較為復(fù)雜。GPU的靈活配置不易實(shí)現(xiàn),同時(shí)滿足高功率需求和有限空間內(nèi)的散熱需求更是挑戰(zhàn)重重。尤其是在空間緊湊的企業(yè)機(jī)房中,這些問題顯得尤為突出。
浪潮的方案設(shè)計(jì)。參考了刀片服務(wù)器與8路服務(wù)器的布局經(jīng)驗(yàn),對(duì)組件進(jìn)行了優(yōu)化。這確保了GPU的強(qiáng)大性能。在眾多對(duì)空間和性能有高要求的企業(yè)中,該方案確保了設(shè)備穩(wěn)定且高效地運(yùn)作。
大家對(duì)這種新型的計(jì)算平臺(tái)在AI領(lǐng)域普及所需的時(shí)間有何看法?期待大家踴躍點(diǎn)贊、轉(zhuǎn)發(fā),并在評(píng)論區(qū)展開討論。
作者:小藍(lán)
鏈接:http://www.huanchou.cn/content/6184.html
本站部分內(nèi)容和圖片來(lái)源網(wǎng)絡(luò),不代表本站觀點(diǎn),如有侵權(quán),可聯(lián)系我方刪除。