“大模型時代,數(shù)據(jù)決定AI智能的高度。作為數(shù)據(jù)的載體,數(shù)據(jù)存儲成為AI大模型的關(guān)鍵基礎(chǔ)設(shè)施。”7月14日,華為數(shù)據(jù)存儲產(chǎn)品線總裁周躍峰在發(fā)布會上說道。
當(dāng)天,華為發(fā)布大模型時代AI存儲新品,為基礎(chǔ)模型訓(xùn)練、行業(yè)模型訓(xùn)練,細分場景模型訓(xùn)練推理提供存儲最優(yōu)解,釋放AI新動能。
周躍峰告訴觀察者網(wǎng)等媒體,現(xiàn)在AI大模型非常熱門,但企業(yè)實施AI大模型的過程是一個復(fù)雜的系統(tǒng)過程,會面臨很多挑戰(zhàn)。具體來講,企業(yè)在開發(fā)及實施大模型應(yīng)用過程中,面臨四大挑戰(zhàn):
首先,數(shù)據(jù)準(zhǔn)備時間長,數(shù)據(jù)來源分散,歸集慢,預(yù)處理百TB數(shù)據(jù)需10天左右;其次,多模態(tài)大模型以海量文本、圖片為訓(xùn)練集,當(dāng)前海量小文件的加載速度不足100MB/s,訓(xùn)練集加載效率低;第三,大模型參數(shù)頻繁調(diào)優(yōu),訓(xùn)練平臺不穩(wěn)定,平均約2天出現(xiàn)一次訓(xùn)練中斷,需要Checkpoint機制恢復(fù)訓(xùn)練,故障恢復(fù)耗時超過一天;最后,大模型實施門檻高,系統(tǒng)搭建繁雜,資源調(diào)度難,GPU資源利用率通常不到40%。
華為數(shù)據(jù)存儲產(chǎn)品線總裁 周躍峰
周躍峰認為,目前大模型算力成本約占整個成本的25%,而數(shù)據(jù)清洗、預(yù)處理等工作,在不算數(shù)據(jù)存儲硬件的情況下,占到成本的22%。從這個角度看,數(shù)據(jù)機器存儲過程,在大模型時代越來越重要。這不僅僅是簡單的數(shù)據(jù)量變大,而且數(shù)據(jù)的處理過程,以及過程中對于硬件性能的要求越來越高。隨著大模型出現(xiàn),數(shù)據(jù)存儲和處理相關(guān)領(lǐng)域未來會越來越有前景。
為順應(yīng)大模型時代AI發(fā)展趨勢,華為針對不同行業(yè)、不同場景大模型應(yīng)用,推出OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲與FusionCube A3000訓(xùn)/推超融合一體機。
OceanStor A310深度學(xué)習(xí)數(shù)據(jù)湖存儲,面向基礎(chǔ)/行業(yè)大模型數(shù)據(jù)湖場景,實現(xiàn)從數(shù)據(jù)歸集、預(yù)處理到模型訓(xùn)練、推理應(yīng)用的AI全流程海量數(shù)據(jù)管理。OceanStor A310單框5U支持業(yè)界最高的400GB/s帶寬以及1200萬IOPS的最高性能,可線性擴展至4096節(jié)點,實現(xiàn)多協(xié)議無損互通。全局文件系統(tǒng)GFS實現(xiàn)跨地域智能數(shù)據(jù)編織,簡化數(shù)據(jù)歸集流程;通過近存計算實現(xiàn)近數(shù)據(jù)預(yù)處理,減少數(shù)據(jù)搬移,預(yù)處理效率提升30 %。
FusionCube A3000訓(xùn)/推超融合一體機,面向行業(yè)大模型訓(xùn)練/推理場景,針對百億級模型應(yīng)用,集成OceanStor A300高性能存儲節(jié)點、訓(xùn)/推節(jié)點、交換設(shè)備、AI平臺軟件與管理運維軟件,為大模型伙伴提供拎包入住式的部署體驗,實現(xiàn)一站式交付。開箱即用,2小時內(nèi)即可完成部署。訓(xùn)/推節(jié)點與存儲節(jié)點均可獨立水平擴展,以匹配不同規(guī)模的模型需求。同時FusionCube A3000通過高性能容器實現(xiàn)多個模型訓(xùn)練推理任務(wù)共享GPU,將資源利用率從40%提升到70%以上。FusionCube A3000支持兩種靈活的商業(yè)模式,包括華為昇騰一站式方案,以及開放計算、網(wǎng)絡(luò)、AI平臺軟件的第三方伙伴一站式方案。
“數(shù)據(jù)是很重要的,堪比人類發(fā)展歷史上的文字。”對于AI大模型的數(shù)據(jù)建設(shè)現(xiàn)狀,周躍峰認為,目前國內(nèi)算力較多但存力較少,很多高價值的信息都沒有被記錄下來。
“目前ChatGPT英文大模型訓(xùn)練效率高于中文的核心原因,就在于英文資料的數(shù)字化記錄遠遠多于中文,人工智能產(chǎn)業(yè)要得到高速的發(fā)展,一定要重視數(shù)據(jù)和信息的數(shù)字化的記錄。”他表示。
周躍峰還提到了未來AI大模型在數(shù)據(jù)建設(shè)方面亟待突破的三個要點:對原始數(shù)據(jù)進行預(yù)處理實現(xiàn)“數(shù)據(jù)更好用”、數(shù)據(jù)存儲與GPU更流暢地相配合、數(shù)據(jù)安全。
華為分布式存儲領(lǐng)域副總裁韓振興在會上表示,在算力和存力的建設(shè)過程中,一定是有一個最佳的算存比,并不是靠推算力就能把一個AI推得非常好。他認為,存力建設(shè)的落后可能加劇算力閑置,造成資源浪費;相反,高質(zhì)量的存力將有助于提升AI訓(xùn)練。
以上就是關(guān)于鼎盛公司上下分-微信【ds012044】全部的內(nèi)容,關(guān)注我們,帶您了解更多相關(guān)內(nèi)容。