從計算中心到算力網絡 符合國家“雙碳”目標新要求
在國家碳達峰、碳中和目標下,2021年10月21日,國家發展改革委等部門發布了關於嚴格能效約束推動重點領域節能降碳的若干意見,將“加強數據中心綠色高質量發展”作為重點任務,鼓勵重點行業利用綠色數據中心等新型基礎設施實現節能降耗。新建大型、超大型數據中心電能利用效率(PUE)不超過1.3。到2025年,數據中心電能利用效率普遍不超過1.5。這些均對人工智能計算中心提出了進一步提升電能利用率,在不同計算中心間算力協同調度、削峰填穀、精細化能耗控制的要求。
人工智能計算中心能耗總量較大,且還在不斷增長。2019年,馬薩諸塞大學阿默斯特分校的研究人員發現,訓練一個AI模型的過程中可排放超過626000磅二氧化碳,相當於普通汽車壽命周期排放量的5倍(其中包括汽車本身的製造過程)。統計表明,2018年中國所有數據中心的總用電量達1600億千瓦時,需消耗5300萬噸標準煤,佔中國社會總用電量的2.5%。
工業和信息化部2021年7月印發的《新型數據中心發展三年行動計畫(2021- 2023年)》提出,到2023年底,全國數據中心機架規模年均增速將保持在20%左右。按照目前的增長速度推算,2023年中國所有數據中心用電量將達2600億千瓦時,相當於2.6個三峽大壩的年發電量。
人工智能計算中心提供人工智能計算範式所需的專用算力,配合少量的通用算力以進行數據預處理和其他任務,從而能夠以較低的能耗提供高效的人工智能計算能力。NVIDIA曾測算,在完成相同的人工智能計算任務條件下,人工智能計算中心的計算效率是傳統計算中心的10倍,而能耗僅為十分之一。近年來,計算中心不斷降低PUE,能耗效率顯著提升。原因主要有兩點:一是得益於統籌規劃,集中建設。在全球各地區政策的引導下,數據中心從較小的傳統數據中心向超大規模數據中心轉變。二是得益於制冷和供配電等基礎設施技術的不斷改進。這兩個措施有效降低了計算中心的PUE。2013年以前,全國對外服務型數據中心平均PUE在2.5左右,而到2019年底,全國對外服務型數據中心平均PUE近1.6,實現了質的飛躍。
雖然計算中心有效降低了PUE,但計算業務天然存在波動,仍存在能耗閑置現象。計算中心的業務波動會造成算力利用的波峰和波穀,在波穀時部分計算集群沒有任務運行,會發生能耗的閑置。如超大規模預訓練模型在人工智能計算中心訓練時,將占據計算中心大部分算力,持續數周或數月形成時間周期性的算力波動,在算力波峰時,算力滿負荷運行,其他計算任務排隊,在算力波穀時則造成能耗閑置。
因此,人工智能計算中心需要採用算力調度進一步降低業務波峰波穀造成的能耗閑置。多人工智能計算中心協同調度,在A中心算力波峰時,可以將排隊任務轉移到算力波穀的B中心計算,削峰填穀,多計算中心都可以保持算力高利用率,將計算中心的能耗充分利用起來,從全局和長遠角度看,是進一步提升電能利用率,降低碳排放的有效路徑。
國家“雙碳”目標對計算中心能耗控制提出了更高的要求,多計算中心間聯網感知計算應用所需算力資源,通過任務調度,在能效比的約束下作出算力調配的最優決策,從全局視角看,可以獲得計算效率與能耗效率的最優。
因此,算力網絡將成為人工智能計算中心下一步發展的新形態和新範式。人工智能超大規模預訓練模型的不斷湧現,基於大模型開發行業應用賦能區域經濟社會發展的需求激增,人工智能數據集等AI要素進一步流動和共享,以及社會對計算中心不斷提升能耗控制水平的要求,促使人工智能計算中心之間開始連接。人工智能計算中心不再是獨立的系統,而是形成相互連接的算力網絡。地理分布的多個算力中心將連接在一起,為基於基礎模型開發新型分布式融合應用提供支撐。算力網絡可以感知應用所需算力與存儲資源,通過任務調度滿足業務需求,多個組織用戶在多個計算中心共享算力和數據,滿足複雜應用對計算和數據處理的需求。 |