資料內(nèi)容:
Alaya NeW 智算操作系統(tǒng)
概 述
Alaya NeW 智算操作系統(tǒng) ( 以下簡稱:Alaya NeW),由九章云極 DataCanvas
自主研發(fā),可有效管理、調(diào)度各種算力資源,提供智算服務(wù),落地各類智算應(yīng)用。
作為智算中心的“中樞神經(jīng)”,Alaya NeW 突破異構(gòu)算力適配、異構(gòu)算力調(diào)度
等關(guān)鍵技術(shù),實(shí)現(xiàn)了包括算力統(tǒng)籌與智能調(diào)度的底層硬件異構(gòu)性兼容;簡單易
用且以集群為優(yōu)先的策略,原生適合 AI 高性能計算,原生支持 AI 大模型 + 小模
型的低門檻構(gòu)建、訓(xùn)練和推理;并支持與通用大模型、行業(yè)大模型及各類大模
型應(yīng)用組合疊加,實(shí)現(xiàn)一體化、開放化、標(biāo)準(zhǔn)化的 AI 模型服務(wù)。
需求分析
隨著人工智能技術(shù)的高速發(fā)展,智能化正以前所未有的速度重塑各行各業(yè)。以
AIGC 為代表的人工智能應(yīng)用、大模型訓(xùn)練等新應(yīng)用、新需求快速崛起都對算力
提出更高要求。經(jīng)中國信息通信研究院測算,預(yù)計到 2025 年全球計算設(shè)備算力
總規(guī)模將超過 3 ZFlops,至 2030 年將超過 20 ZFlops。
算力作為新質(zhì)生產(chǎn)力,已成為挖掘數(shù)據(jù)要素價值,推動數(shù)字經(jīng)濟(jì)發(fā)展的重要驅(qū)
動力,智算中心的戰(zhàn)略性地位愈發(fā)凸顯。同時,智算中心在運(yùn)營和管理過程中
面臨的異構(gòu)算力資源納管困難、算力調(diào)度能力不足、利用率低等難題,將嚴(yán)重
制約智算中心的應(yīng)用與發(fā)展。因此,一個能夠全面服務(wù)于智算中心的中樞神
經(jīng)——智算操作系統(tǒng),將是直擊這些難題的最佳方案。
1、異構(gòu)算力資源納管困難
智算中心逐漸引入多種不同品牌的加速硬件,往往存在異構(gòu)算力不兼容、模型框架與底層芯片適配不充分等
情況,導(dǎo)致算力調(diào)度困難、難以有效形成規(guī)?;懔?。
2、算力調(diào)度能力不足、利用率低
在大規(guī)模數(shù)據(jù)處理和大模型訓(xùn)練等任務(wù)中,算力調(diào)度能力不足,使得算力分配不均衡,導(dǎo)致算力資源浪費(fèi)和
利用率下降,不能充分滿足不同類型 AI 任務(wù)的調(diào)度需求,影響 AIDC 服務(wù)的整體性能。
3、AI 加速優(yōu)化能力不足
一般針對 AI 大模型數(shù)據(jù)加載、訓(xùn)練、微調(diào)、推理環(huán)節(jié),并沒有實(shí)施優(yōu)化或者只做了局部加速優(yōu)化。因此經(jīng)
常受到存儲訪問慢,算力利用率、內(nèi)存利用率、通信效率低的困擾,影響 AI 任務(wù)的完成。
4、AI 大模型訓(xùn)練微調(diào)門檻高
數(shù)據(jù)科學(xué)家往往不能掌握使用智算硬件基礎(chǔ)設(shè)施的技能,而企業(yè)內(nèi) IT 人員缺乏對訓(xùn)練大模型所需的集群管
理能力,缺乏一個彈性易用的集群環(huán)境以及在其之上的 AI 大模型訓(xùn)練微調(diào)工具鏈