快科技9月20日消息,中國(guó)電信宣布,天翼云自研的國(guó)內(nèi)首個(gè)單集群萬(wàn)卡國(guó)產(chǎn)化全功能預(yù)訓(xùn)練云服務(wù)平臺(tái),已經(jīng)正式發(fā)布上線,基于華為昇騰芯片,并完成了萬(wàn)卡規(guī)模Llama3.1-405B大模型訓(xùn)練。

Llama3.1-405B作為4000億參數(shù)規(guī)模的大模型,在息壤訓(xùn)推服務(wù)平臺(tái)的支持下,經(jīng)過(guò)多輪優(yōu)化,MFU(算力利用率)達(dá)到國(guó)內(nèi)領(lǐng)先水平。

另外,700億參數(shù)大模型Llama2-70B在萬(wàn)卡規(guī)模下完成訓(xùn)練,MFU也處于業(yè)界領(lǐng)先水平。

中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬(wàn)卡訓(xùn)練!4000億參數(shù)大模型領(lǐng)先  第1張

據(jù)悉,天翼云的這套平臺(tái)具備萬(wàn)卡納管和并行訓(xùn)練能力,基于HPFS PB級(jí)并行文件系統(tǒng)、CTCCL RDMA高速卡間互聯(lián)技術(shù)、Gang策略與拓?fù)涓兄闹撬闳萜髡{(diào)度,以及慧聚自研分布式訓(xùn)練框架TeleFormers和平臺(tái),實(shí)現(xiàn)萬(wàn)卡資源納管、萬(wàn)卡規(guī)模并行訓(xùn)練。

其中,天翼云自研了AI框架Teleformers,對(duì)算子、通信、數(shù)據(jù)處理進(jìn)行優(yōu)化,還有并行策略的自適應(yīng)調(diào)整,顯著提升了大模型訓(xùn)練的訓(xùn)練效率。

在目前業(yè)內(nèi)最大參數(shù)規(guī)模開(kāi)源單體稠密模型Llama3.1-405B大模型訓(xùn)練測(cè)試中,性能表現(xiàn)達(dá)到國(guó)際同等水平。

算子優(yōu)化方面,針對(duì)昇騰芯片的特性,在網(wǎng)絡(luò)結(jié)構(gòu)層面對(duì)諸多高頻算子進(jìn)行了定制化改造,構(gòu)建了高性能算子集。

比如matmul算子,利用昇騰芯片的計(jì)算親和性,將算子輸入padding到特定的維度,大幅提升執(zhí)行效率,從而明顯縮短了訓(xùn)練時(shí)間。

數(shù)據(jù)處理和流水線方面,通過(guò)設(shè)置合理的數(shù)據(jù)分片策略和HPFS條帶化優(yōu)化,結(jié)合數(shù)據(jù)預(yù)取與數(shù)據(jù)下沉技術(shù),大幅提升數(shù)據(jù)流的處理效率和穩(wěn)定性;對(duì)預(yù)處理后的數(shù)據(jù)集進(jìn)行了二次分片并提供就近緩存能力,減少GPU空閑時(shí)間。

中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬(wàn)卡訓(xùn)練!4000億參數(shù)大模型領(lǐng)先  第2張

自適應(yīng)并行策略方面,基于對(duì)3D并行中各類(lèi)計(jì)算單元的分析,天翼云設(shè)計(jì)了多種自適應(yīng)的3D并行策略,依據(jù)模型規(guī)模和硬件資源的不同可以自動(dòng)選擇合適的并行策略,充分利用計(jì)算資源和顯存資源,縮短模型訓(xùn)練中每輪的迭代時(shí)間。

中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬(wàn)卡訓(xùn)練!4000億參數(shù)大模型領(lǐng)先  第3張

天翼云國(guó)產(chǎn)化萬(wàn)卡智算中心還有多項(xiàng)技術(shù)突破——

天翼云息壤訓(xùn)練服務(wù)平臺(tái)基于軟硬件協(xié)同設(shè)計(jì),提供全鏈路故障監(jiān)控、基于主動(dòng)感知的全鏈路故障監(jiān)控和定位、CheckPoint秒級(jí)多級(jí)高速存儲(chǔ)系統(tǒng)、容錯(cuò)優(yōu)雅調(diào)度和模型編譯緩存等系統(tǒng),將萬(wàn)卡規(guī)模故障發(fā)現(xiàn)和解決問(wèn)題縮短到業(yè)內(nèi)前沿的分鐘級(jí),大幅提升有效訓(xùn)練時(shí)間。

自動(dòng)斷點(diǎn)續(xù)訓(xùn)系統(tǒng):

建設(shè)豐富的故障庫(kù),基于此構(gòu)建了多維故障感知系統(tǒng),能夠快速主動(dòng)感知相關(guān)故障事件和潛在的故障風(fēng)險(xiǎn);

通過(guò)精準(zhǔn)的故障隔離和調(diào)度手段,快速隔離處理故障節(jié)點(diǎn)并重新調(diào)度新節(jié)點(diǎn)接手任務(wù)繼續(xù)訓(xùn)練,實(shí)現(xiàn)無(wú)人干預(yù)式斷點(diǎn)續(xù)訓(xùn),有效減少GPU閑置時(shí)間。

中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬(wàn)卡訓(xùn)練!4000億參數(shù)大模型領(lǐng)先  第4張

高速多級(jí)CheckPoint系統(tǒng):

天翼云設(shè)計(jì)基于多級(jí)存儲(chǔ)的高速CheckPoint系統(tǒng),通過(guò)兩階段異步存儲(chǔ),實(shí)現(xiàn)高速寫(xiě)入內(nèi)存,并最終異步寫(xiě)入遠(yuǎn)端系統(tǒng);

針對(duì)斷點(diǎn)恢復(fù)場(chǎng)景,提供進(jìn)程級(jí)故障原地快恢和遠(yuǎn)端快速恢復(fù)能力,最終實(shí)現(xiàn)對(duì)CheckPoint的秒級(jí)讀寫(xiě)能力,大幅降低斷點(diǎn)恢復(fù)時(shí)間、提升訓(xùn)練效率。

中國(guó)電信天翼云完成首個(gè)國(guó)產(chǎn)GPU萬(wàn)卡訓(xùn)練!4000億參數(shù)大模型領(lǐng)先  第5張

全鏈路檢測(cè)工具鏈:

天翼云開(kāi)發(fā)了全鏈路故障監(jiān)控工具鏈,能夠基于主動(dòng)感知實(shí)現(xiàn)全鏈路的故障監(jiān)控和定位。

該工具鏈可以主動(dòng)發(fā)現(xiàn)設(shè)備故障,并降低訓(xùn)練中斷的頻次,確保訓(xùn)練過(guò)程的連續(xù)性和穩(wěn)定性。

【本文結(jié)束】如需轉(zhuǎn)載請(qǐng)務(wù)必注明出處:快科技

責(zé)任編輯:上方文Q