最近兩年,大語(yǔ)言模型發(fā)展迅猛,對(duì)算力需求激增。然而,英偉達(dá)A100等高端GPU一卡難求,是挑戰(zhàn)還是機(jī)遇?眾多國(guó)產(chǎn)算力廠商開(kāi)始尋找新的替代方案。 作為國(guó)內(nèi)僅有的可以在功能上對(duì)標(biāo)英偉達(dá)的GPU企業(yè),摩爾線程試圖用“集群化”的解決方案,助力國(guó)產(chǎn)GPU突破算力瓶頸。 7月3日,在2024世界人工智能大會(huì)召開(kāi)前夕,摩爾線程宣布其夸娥(KUAE)智算集群解決方案實(shí)現(xiàn)重大升級(jí),從當(dāng)前的千卡級(jí)別大幅擴(kuò)展至萬(wàn)卡規(guī)模,以此來(lái)完成對(duì)大模型的托舉,為萬(wàn)億參數(shù)級(jí)別的大模型訓(xùn)練提供持續(xù)高效、穩(wěn)定、且廣泛適用的通用算力支持。 AI主戰(zhàn)場(chǎng),萬(wàn)卡是標(biāo)配 AI大模型時(shí)代,巨頭們都卷入一場(chǎng)算力軍備賽。 2023年5月10日,Google推出的超級(jí)計(jì)算機(jī)A3 Virtual Machines擁有26,000塊Nvidia H100 GPU,同時(shí)基于自研芯片搭建TPUv5p 8960卡集群; 2024年3月,Meta分享了其兩個(gè)新的AI訓(xùn)練集群,新發(fā)布的兩個(gè)集群均包含24,576個(gè)Nvidia Tensor Core H100 GPU,比上一代的16,000塊增長(zhǎng)了不少; 而OpenAI開(kāi)發(fā)的ChatGPT-4擁有16個(gè)專(zhuān)家模型共1.8萬(wàn)億參數(shù),一次訓(xùn)練需要在大約25,000個(gè)A100上訓(xùn)練90到100天。 事實(shí)證明,AI大模型的主戰(zhàn)場(chǎng),萬(wàn)卡已是標(biāo)配。 那么,AI大模型時(shí)代,究竟需要怎樣的算力?從大模型的發(fā)展趨勢(shì),我們可以窺得一二。 在2020年推出的Scaling Law(尺度規(guī)律)持續(xù)作用之下,推動(dòng)了大模型的“暴力美學(xué)”趨勢(shì)。以O(shè)penAI的ChatGPT的發(fā)展為例,大模型訓(xùn)練的方向是參數(shù)規(guī)模從百億增長(zhǎng)到萬(wàn)億,至少增長(zhǎng)了100多倍;所需處理的數(shù)據(jù)量從TB級(jí)別增長(zhǎng)到10+TB,至少增長(zhǎng)了10多倍;計(jì)算量至少增加了1000多倍。這樣的大模型必須要有規(guī)模足夠大的算力,才能快速跟上技術(shù)演進(jìn)。 不只是規(guī)模夠大,AI算力還必須具有通用性。這是因?yàn)?,目前大模型背后所基于的是Transformer架構(gòu),它雖然是當(dāng)下的主流架構(gòu),但并不能大一統(tǒng),它自身仍在加速融合演進(jìn),從稠密到MoE,從單模態(tài)到多模態(tài),從擴(kuò)散到自回歸。同時(shí),除了Transformer架構(gòu)之外,也不斷有其他創(chuàng)新架構(gòu)出現(xiàn),如Mamba、RWKV和RetNet等。因而,Transformer架構(gòu)并不等于最終答案。 此外,AI、3D、HPC跨技術(shù)與跨領(lǐng)域融合不斷加速,比如利用AI+3D實(shí)現(xiàn)空間智能、AI+仿真計(jì)算實(shí)現(xiàn)物理智能、AI+科學(xué)計(jì)算實(shí)現(xiàn)4Science等。計(jì)算范式的演進(jìn),以及更多場(chǎng)景對(duì)多元算力需求的變化,都催生了對(duì)一個(gè)通用加速計(jì)算平臺(tái)的渴望。 隨著模型參數(shù)量從千億邁向萬(wàn)億,大模型亟需一個(gè)超級(jí)訓(xùn)練工廠,即一個(gè)“大且通用”的加速計(jì)算平臺(tái),來(lái)極大地縮短訓(xùn)練時(shí)間,以實(shí)現(xiàn)模型能力的快速迭代?!爸挥性谝?guī)模足夠大、計(jì)算更通用且生態(tài)兼容好的情況下,才能真正實(shí)現(xiàn)好用?!蹦柧€程創(chuàng)始人兼CEO張建中指出。 超萬(wàn)卡集群已成為大模型預(yù)訓(xùn)練的標(biāo)配,對(duì)于基礎(chǔ)設(shè)施廠商而言,有沒(méi)有萬(wàn)卡集群將是贏取AI主戰(zhàn)場(chǎng)勝負(fù)的關(guān)鍵。 然而,建設(shè)萬(wàn)卡集群并非易事。 萬(wàn)卡集群并不是一萬(wàn)張GPU卡的簡(jiǎn)單堆疊,而是一個(gè)超級(jí)復(fù)雜的系統(tǒng)工程。 首先,它涉及到超大規(guī)模組網(wǎng)互聯(lián)問(wèn)題,以及如何提高集群有效計(jì)算效率,大量實(shí)踐表明,集群規(guī)模的線性提升無(wú)法直接帶來(lái)集群有效算力的線性提升。 此外,訓(xùn)練高穩(wěn)定與高可用、故障快速定位與可診斷工具等也很關(guān)鍵,超萬(wàn)卡集群是由數(shù)千臺(tái)GPU服務(wù)器、數(shù)千臺(tái)交換機(jī)、數(shù)萬(wàn)根光纖/數(shù)萬(wàn)顆光模塊構(gòu)成,訓(xùn)練任務(wù)涉及上千萬(wàn)器件的共同作業(yè),任何一個(gè)部件的故障,可能都會(huì)導(dǎo)致訓(xùn)練中斷。 再者,大模型的迭代和創(chuàng)新層出不窮,各種新類(lèi)型的模型及模型架構(gòu)的創(chuàng)新,要求萬(wàn)卡集群具備生態(tài)Day0級(jí)的快速遷移能力,以適應(yīng)不斷變化的技術(shù)需求。同時(shí),我們也不能局限于當(dāng)下的大模型計(jì)算加速場(chǎng)景,還需要考慮未來(lái)通用計(jì)算的需求。 建設(shè)萬(wàn)卡集群的道路難如登山,挑戰(zhàn)巨大,但這卻是一條難而正確的道路。 打造大模型訓(xùn)練超級(jí)工廠 經(jīng)過(guò)近四年的積累,摩爾線程在千卡集群已獲得成功驗(yàn)證的基礎(chǔ)上,重磅發(fā)布了夸娥(KUAE)萬(wàn)卡智算集群方案,可以滿足大模型時(shí)代對(duì)于算力“規(guī)模夠大+計(jì)算通用+生態(tài)兼容”的核心需求,實(shí)現(xiàn)國(guó)產(chǎn)集群計(jì)算能力再升級(jí)。 摩爾線程夸娥萬(wàn)卡集群以全功能GPU為底座,軟硬一體化、完整的系統(tǒng)級(jí)算力解決方案,包括以夸娥計(jì)算集群為核心的基礎(chǔ)設(shè)施、夸娥集群管理平臺(tái)(KUAE Platform)以及夸娥大模型服務(wù)平臺(tái)(KUAE ModelStudio),旨在以一體化交付的方式解決大規(guī)模GPU算力的建設(shè)和運(yùn)營(yíng)管理問(wèn)題。該方案可實(shí)現(xiàn)開(kāi)箱即用,大大降低傳統(tǒng)算力建設(shè)、應(yīng)用開(kāi)發(fā)和運(yùn)維運(yùn)營(yíng)平臺(tái)搭建的時(shí)間成本,實(shí)現(xiàn)快速投放市場(chǎng)開(kāi)展商業(yè)化運(yùn)營(yíng)。 夸娥萬(wàn)卡智算方案具備五大特點(diǎn): 單一集群規(guī)模突破萬(wàn)卡,總算力超萬(wàn)P; 集群有效計(jì)算效率,目標(biāo)最高可超過(guò)60%; 穩(wěn)定性卓越,周均訓(xùn)練有效率最高可達(dá)99%以上,平均無(wú)故障運(yùn)行15天以上,最長(zhǎng)穩(wěn)定訓(xùn)練30天以上; 具備強(qiáng)大的計(jì)算通用性,專(zhuān)為通用計(jì)算而設(shè)計(jì),可以加速一切大模型; 擁有良好的CUDA兼容能力,生態(tài)適配Instant On,加速新模型Day0級(jí)遷移。 “我們希望,我們的產(chǎn)品可以為客戶提供一個(gè)更好的、可選擇的國(guó)產(chǎn)化工具,在國(guó)外產(chǎn)品無(wú)法使用的時(shí)候,可以很容易在國(guó)產(chǎn)平臺(tái)上快速使用起來(lái)?!睆埥ㄖ斜硎?,“對(duì)于目前國(guó)內(nèi)的大模型用戶來(lái)說(shuō),我們的最大優(yōu)勢(shì)在于生態(tài)兼容性極佳。開(kāi)發(fā)者移植到我們的夸娥集群上,幾乎是不需要修改代碼,遷移成本接近0,可以在數(shù)小時(shí)之內(nèi)就完成遷移工作?!?/br> 要讓這個(gè)大模型訓(xùn)練工廠真正運(yùn)轉(zhuǎn)起來(lái),還需要一眾朋友圈的支持: 智譜 AI、智源研究院、北大兔展、滴普科技、師者AI、羽人科技、樂(lè)創(chuàng)能源、瑞萊智慧、實(shí)在智能、積沙成塔(Reportify)、憨猴集團(tuán)、億景智聯(lián)等國(guó)內(nèi)大模型企業(yè),都成功運(yùn)行在摩爾線程的夸娥集群上。值得一提的是,摩爾線程是第一家接入無(wú)問(wèn)芯穹并進(jìn)行大模型訓(xùn)練的國(guó)產(chǎn)GPU公司,夸娥也是業(yè)內(nèi)首個(gè)成功跑通并完整運(yùn)行國(guó)產(chǎn)大模型的集群。 讓國(guó)產(chǎn)GPU算力集群真正用起來(lái) 萬(wàn)卡集群是個(gè)超級(jí)工程,需要產(chǎn)業(yè)界齊心協(xié)力參與建設(shè)。在發(fā)布會(huì)上,摩爾線程與青海移動(dòng)、青海聯(lián)通等頭部央企進(jìn)行了萬(wàn)卡集群項(xiàng)目的戰(zhàn)略簽約。這些合作將進(jìn)一步推動(dòng)摩爾線程萬(wàn)卡集群在各地方的應(yīng)用落地。 憑借高兼容性、高穩(wěn)定性、高擴(kuò)展性及高算力利用率等優(yōu)勢(shì),摩爾線程夸娥智算集群已成功斬獲多家大模型企業(yè)的認(rèn)可,成為國(guó)內(nèi)大模型訓(xùn)練和應(yīng)用的重要力量?!皫啄昵皩?duì)于客戶來(lái)說(shuō),國(guó)產(chǎn)算力只是備胎,而現(xiàn)在已經(jīng)成為客戶的首選,因?yàn)橐WC長(zhǎng)期供應(yīng)、本地服務(wù)。”張建中介紹到。 雖然構(gòu)建萬(wàn)卡集群是一項(xiàng)艱巨的任務(wù),但摩爾線程展示出了攀登的決心,這是一條難而正確的道路。但這不僅是為了解決某一家企業(yè)的算力需求,更是為了應(yīng)對(duì)全行業(yè)的算力短缺問(wèn)題。雖難但很有必要! 結(jié)語(yǔ) 摩爾線程萬(wàn)卡級(jí)夸娥智算中心全棧解決方案的發(fā)布,標(biāo)志著國(guó)產(chǎn)GPU在算力水平上取得了重大突破,將優(yōu)先解決復(fù)雜萬(wàn)億參數(shù)大模型訓(xùn)練的難題。而摩爾線程的定位早已經(jīng)不是一家GPU公司,而是一家專(zhuān)注AI的加速計(jì)算平臺(tái)企業(yè)。