![]()
過去幾年,數(shù)據(jù)中心因突發(fā)故障停擺的新聞并不少見。Uptime Institute調(diào)查顯示,超過一半的運(yùn)營組織在過去三年里都遭遇過數(shù)據(jù)中心影響性中斷事件,其中不少事件造成了數(shù)十萬甚至上百萬美元的損失。而隨著AI、大模型、云計(jì)算等新興業(yè)務(wù)的快速發(fā)展,數(shù)據(jù)中心承載的任務(wù)愈發(fā)關(guān)鍵,行業(yè)對其穩(wěn)定性和持續(xù)性的要求也被推到了前所未有的高度。
行業(yè)逐漸意識到,單純追求規(guī)模和擴(kuò)容已經(jīng)無法應(yīng)對當(dāng)下復(fù)雜多變的業(yè)務(wù)需求,數(shù)據(jù)中心角色已從傳統(tǒng)意義上的成本中心,成為支撐業(yè)務(wù)增長、抵御不確定性、驅(qū)動(dòng)創(chuàng)新的價(jià)值中心。
如何讓數(shù)據(jù)中心在面對不確定性時(shí)依然保持業(yè)務(wù)不中斷,成為整個(gè)產(chǎn)業(yè)必須直面的挑戰(zhàn)。
這一背景下,華為憑借長期深耕ICT基礎(chǔ)設(shè)施的經(jīng)驗(yàn),率先洞察到“韌性”將成為下一階段數(shù)據(jù)中心的核心命題。
在2025年華為全聯(lián)接大會(huì)期間,華為發(fā)布的《韌性DC白皮書》系統(tǒng)化地闡釋了韌性數(shù)據(jù)中心的建設(shè)理念、方法論與實(shí)踐路徑,點(diǎn)明“業(yè)務(wù)永續(xù)”“確定性安全”“彈性自適應(yīng)”“Agentic AI運(yùn)維”四大方向。同時(shí),華為還提出了數(shù)據(jù)中心韌性成熟度模型DRMM,為企業(yè)評估建設(shè)成效和演進(jìn)進(jìn)度提供了量化工具,幫助行業(yè)在可持續(xù)發(fā)展的道路上邁出更堅(jiān)實(shí)的步伐。
![]()
那么,在AI時(shí)代,韌性為何更加重要?處于復(fù)雜多變的技術(shù)環(huán)境中,一個(gè)充滿韌性的數(shù)據(jù)中心又究竟該如何構(gòu)建?
![]()
進(jìn)入AI時(shí)代,AI工作負(fù)載的特性讓高密度、高功耗場景增多,這也將數(shù)據(jù)中心的韌性挑戰(zhàn)推向了前所未有的高度,帶來幾個(gè)顯著變化:
一是風(fēng)險(xiǎn)格局變了,故障影響更集中、破壞力更大。一次光模塊故障或網(wǎng)絡(luò)故障,影響的不再只是幾個(gè)服務(wù)器,而是可能導(dǎo)致整個(gè)價(jià)值數(shù)千萬的AI集群癱瘓。
二是應(yīng)用需求變了,AI應(yīng)用尤其是大模型訓(xùn)練和在線推理的潮汐性、動(dòng)態(tài)性對基礎(chǔ)設(shè)施韌性提出了更高的要求。一個(gè)大模型訓(xùn)練要消耗上萬張算力卡,任何宕機(jī)都意味著數(shù)百萬美元的算力損失。
三是技術(shù)架構(gòu)變了,數(shù)據(jù)中心已從算、網(wǎng)、存孤立部署的傳統(tǒng)模式,轉(zhuǎn)向三者深度耦合的新型體系。在這種各要素高度依賴的環(huán)境中,若缺乏統(tǒng)一協(xié)同,數(shù)據(jù)中心建設(shè)容易陷入建設(shè)碎片化、成本高、效果差的困局,一處失效往往牽動(dòng)全局。
于是,“高可用”不再是萬能藥,關(guān)于“韌性”的討論走上臺前、成為更迫切的話題。
![]()
擁有高韌性的數(shù)據(jù)中心,可以通過多活容災(zāi)、自動(dòng)化調(diào)度和智能運(yùn)維,在風(fēng)險(xiǎn)發(fā)生時(shí)迅速恢復(fù)。同時(shí),內(nèi)置的縱深安全防護(hù)機(jī)制能夠確保數(shù)據(jù)在全鏈路中的可信與合規(guī),有效抵御日益復(fù)雜的網(wǎng)絡(luò)攻擊。這樣的能力既能確保核心業(yè)務(wù)不中斷,又能提升客戶與合作伙伴的信任度,從而在激烈的市場競爭中贏得先機(jī)。
關(guān)于韌性,《韌性DC白皮書》給出的定義是“故障即常態(tài),恢復(fù)即本能”。與過去行業(yè)強(qiáng)調(diào)的“永不宕機(jī)”不同,這一定義轉(zhuǎn)而承認(rèn)在復(fù)雜的系統(tǒng)環(huán)境中,故障的發(fā)生是不可避免的常態(tài)。因此,韌性建設(shè)的核心目標(biāo),并非追求硬件絕對不失效,而是構(gòu)建一種內(nèi)在能力:當(dāng)故障真的發(fā)生時(shí),系統(tǒng)能夠像本能反應(yīng)一樣快速、自動(dòng)地恢復(fù)到正常狀態(tài)。
這本白皮書的發(fā)布首次將“韌性”從一個(gè)模糊的運(yùn)維目標(biāo),提升為可規(guī)劃、可設(shè)計(jì)、可衡量、可落地的能力體系,恰逢其時(shí),意義重大。那么,一個(gè)有韌性的數(shù)據(jù)中心應(yīng)該從哪些方面著手建設(shè)呢?
![]()
全球數(shù)據(jù)中心產(chǎn)業(yè)正經(jīng)歷由AI算力驅(qū)動(dòng)的爆發(fā)式增長。數(shù)據(jù)顯示,超大規(guī)模(>10MW級)數(shù)據(jù)中心增長迅速,大約每五年翻一倍。2025年全球數(shù)據(jù)中心行業(yè)的價(jià)值估計(jì)為2427.2億美元,預(yù)計(jì)到2032年將增加一倍多,達(dá)到5840億美元以上。
然而,盡管數(shù)據(jù)中心的建設(shè)如火如荼,行業(yè)也已有關(guān)于“數(shù)據(jù)中心可靠性”“高可用性”的討論,但將全產(chǎn)業(yè)鏈、多維韌性、量化成熟度模型集于一體的綜合方案仍然處于空白區(qū)域。
全球數(shù)據(jù)中心的發(fā)展路徑呈現(xiàn)出區(qū)域化特征:歐美在強(qiáng)監(jiān)管驅(qū)動(dòng)下,將綠色合規(guī)和可持續(xù)性作為核心;亞洲的超大規(guī)模云廠商則出于業(yè)務(wù)和成本壓力,在自動(dòng)化調(diào)度和資源利用率上更為領(lǐng)先;行業(yè)組織如Uptime、TIA也在探索韌性成熟度的量化模型,但尚未形成體系。
AI時(shí)代,產(chǎn)業(yè)急需一份參考方案,去摸清楚數(shù)據(jù)中心應(yīng)該如何建設(shè)。
![]()
9月18日,華為發(fā)布的《韌性DC白皮書》為行業(yè)提供了一個(gè)方向,把韌性從抽象概念落到架構(gòu)、運(yùn)維、能效與協(xié)同的細(xì)節(jié)上,讓企業(yè)既能抵御沖擊,也能在壓力中創(chuàng)造價(jià)值。
它不再滿足于“災(zāi)備”和“高可用”的傳統(tǒng)敘事,而是將韌性拆解成業(yè)務(wù)永續(xù)、確定性安全、彈性自適應(yīng)和Agentic AI運(yùn)維四個(gè)支柱。
支柱一:業(yè)務(wù)永續(xù),確保業(yè)務(wù)不中斷、不坍塌。白皮書數(shù)據(jù)顯示,某證券企業(yè)的量化交易系統(tǒng)因?yàn)橐淮喂饫w故障宕機(jī)45分鐘,直接損失了864萬元的傭金收入。在數(shù)字社會(huì),數(shù)據(jù)中心早已從成本中心躍升為價(jià)值中心,其核心使命就是實(shí)現(xiàn)“數(shù)據(jù)零丟失”和“服務(wù)零中斷”。
支柱二:確定性安全,讓AI和數(shù)據(jù)全鏈路可信任。未來的數(shù)據(jù)中心需要建立起“內(nèi)生可信+縱深防護(hù)+智能運(yùn)營”和覆蓋“應(yīng)用安全、數(shù)據(jù)安全、主機(jī)安全、網(wǎng)絡(luò)邊界安全、物理環(huán)境安全”的三縱五橫防護(hù)網(wǎng),確保系統(tǒng)能夠做到“攻不癱、數(shù)據(jù)偷不走、全程嚴(yán)合規(guī)”。
支柱三:彈性自適應(yīng),讓資源利用最大化。為應(yīng)對AI工作負(fù)載的劇烈波動(dòng),數(shù)據(jù)中心需具備智能電網(wǎng)般的柔性調(diào)度能力,徹底改變傳統(tǒng)超配資源造成的浪費(fèi)。
支柱四:Agentic AI運(yùn)維,讓“恢復(fù)即本能”成為可能。通過引入Agentic AI,數(shù)據(jù)中心能夠?qū)崿F(xiàn)“隱患自優(yōu)化、變更自校驗(yàn)、故障自閉環(huán)”。系統(tǒng)將如同一個(gè)擁有自我意識的生命體,能夠自主進(jìn)行診斷、修復(fù)與優(yōu)化,從而變得更具智能與生命力。
四大支柱明確了韌性數(shù)據(jù)中心的建造規(guī)范,讓數(shù)據(jù)中心的建設(shè)有了一張可復(fù)制、能夠遵循的規(guī)劃圖紙。
在給出“韌性DC”規(guī)劃圖的同時(shí),華為也給出了針對性的落地方案和說明書。它們的核心思路是,把復(fù)雜的技術(shù)問題轉(zhuǎn)化為可復(fù)制、可部署的架構(gòu)與工具,幫助行業(yè)客戶真正實(shí)現(xiàn)業(yè)務(wù)不中斷、數(shù)據(jù)不丟失、服務(wù)不降級。
在高可用方面,華為采用從基礎(chǔ)到高級的多層次容災(zāi)解決方案。主備容災(zāi)通過主備中心切換實(shí)現(xiàn)基礎(chǔ)保障;同城雙活實(shí)現(xiàn)雙中心同時(shí)提供服務(wù),故障時(shí)業(yè)務(wù)無縫切換;多地多活則在跨地域多中心同時(shí)運(yùn)行業(yè)務(wù),可抵御城市級災(zāi)難,實(shí)現(xiàn)最高級別的業(yè)務(wù)連續(xù)性。
![]()
在確定性安全方面,華為構(gòu)建了一套縱深防御體系。防護(hù)不僅覆蓋網(wǎng)絡(luò)邊界的防火墻、入侵檢測,還包括主機(jī)安全、應(yīng)用安全、數(shù)據(jù)安全等關(guān)鍵層面。每一層均部署相應(yīng)的安全機(jī)制,形成多道防線,即使某一層被突破,后續(xù)層級仍可持續(xù)攔截與響應(yīng)。
在彈性自適應(yīng)方面,華為強(qiáng)調(diào)“以云為底座”,結(jié)合云原生和Kubernetes容器技術(shù),實(shí)現(xiàn)資源的動(dòng)態(tài)分配。在春節(jié)、雙十一等高流量時(shí)段,系統(tǒng)自動(dòng)擴(kuò)容;業(yè)務(wù)低谷時(shí)自動(dòng)釋放資源,從而節(jié)約能耗與成本。
在Agentic AI運(yùn)維方面,華為率先將Agentic AI引入數(shù)據(jù)中心管理體系,構(gòu)建了面向全生命周期的智能化運(yùn)維方案。通過大模型驅(qū)動(dòng)的多Agent協(xié)同,運(yùn)維系統(tǒng)能夠?qū)崿F(xiàn)從告警分析、故障定位到風(fēng)險(xiǎn)預(yù)測、資源優(yōu)化的自動(dòng)化閉環(huán)。具體方案上,華為推出的AEI(Agentic Enterprise ICT-Infrastructure)解決方案能夠覆蓋數(shù)據(jù)中心、園區(qū)等企業(yè)ICT基礎(chǔ)設(shè)施,大幅提升運(yùn)維效率和網(wǎng)絡(luò)安全。
從多層次的容災(zāi)機(jī)制到縱深防御的安全體系,再到彈性自適應(yīng)的資源管理、智能化多模態(tài)運(yùn)維,華為通過全面的規(guī)劃和解決方案,提供了針對性強(qiáng)、易于實(shí)施的數(shù)據(jù)中心韌性建設(shè)路徑,回應(yīng)了行業(yè)的核心關(guān)切。
但光有方向還不夠,數(shù)據(jù)中心的建設(shè)還需要一把尺子來度量建設(shè)的效果和成績。
![]()
白皮書給出了建設(shè)數(shù)據(jù)中心韌性的四大支柱,但行業(yè)仍存在疑問:既然“韌性”如此關(guān)鍵,那么企業(yè)究竟該以什么為尺度來判斷自己的建設(shè)成效?如何確保自己的投資和改進(jìn)方向能夠帶來最大化的韌性收益?
對此,白皮書首次提出了數(shù)據(jù)中心韌性成熟度模型DRMM。它像一把量尺,將復(fù)雜的韌性能力拆解為可度量、可分級的體系,幫助企業(yè)明確自身處于哪個(gè)階段,以及下一步該如何邁進(jìn)。
DRMM將數(shù)據(jù)中心韌性分為五個(gè)等級:L1為被動(dòng)應(yīng)對,數(shù)據(jù)中心主要依賴人工處理,應(yīng)對能力弱;L2是初步管控,開始建立基本的災(zāi)備和應(yīng)急管理體系;L3為管理量化,引入自動(dòng)化和監(jiān)控系統(tǒng),能夠主動(dòng)識別并解決問題;L4是數(shù)據(jù)驅(qū)動(dòng),通過數(shù)據(jù)分析優(yōu)化管理,提升風(fēng)險(xiǎn)預(yù)測能力;L5為智能演進(jìn),借助AI等技術(shù)實(shí)現(xiàn)自我優(yōu)化,靈活應(yīng)對變化。
![]()
相比于過去憑經(jīng)驗(yàn)拍板或是追隨熱點(diǎn)概念的做法,DRMM提供了循序漸進(jìn)的升級路徑。企業(yè)可以據(jù)此避免盲目投入,也能擺脫“全線鋪開、效果有限”的困境,而是聚焦于階段性的重點(diǎn)突破,從而用有限的資源撬動(dòng)最大的韌性收益。
可以看出,L1-L2級別關(guān)注點(diǎn)更多集中在“能不能用”上,企業(yè)通常關(guān)注的是基礎(chǔ)設(shè)施是否可靠、機(jī)房供電是否穩(wěn)定、系統(tǒng)是否能夠在日常負(fù)載下運(yùn)行。這樣的建設(shè)目標(biāo)主要聚焦于基礎(chǔ)的功能性,確保數(shù)據(jù)中心能夠維持日常運(yùn)營的穩(wěn)定。
然而,進(jìn)入AI驅(qū)動(dòng)的新時(shí)代,數(shù)據(jù)中心的功能早已超越了傳統(tǒng)的“能否正常運(yùn)行”的層面,步入L3及以上級別。現(xiàn)代數(shù)據(jù)中心承載的不僅僅是計(jì)算和存儲,它們更是支撐經(jīng)濟(jì)運(yùn)行和社會(huì)治理的關(guān)鍵底層設(shè)施。
《韌性DC白皮書》的發(fā)布,正是要引導(dǎo)行業(yè)從傳統(tǒng)的功能性考慮,深入到數(shù)據(jù)中心韌性建設(shè)的深層次,不僅要能夠支撐當(dāng)下的業(yè)務(wù),還要能夠在未來的發(fā)展中持久、穩(wěn)健、可進(jìn)化地應(yīng)對不斷變化的需求和挑戰(zhàn)。
換句話說,韌性不再是一種附加屬性,而是AI時(shí)代數(shù)據(jù)中心的生命線。華為的方案正是試圖讓這條生命線更強(qiáng)、更穩(wěn),從而為數(shù)字經(jīng)濟(jì)提供更強(qiáng)大的支撐力量。
![]()
《韌性DC白皮書》發(fā)布,給整個(gè)行業(yè)帶來了一些方法論上的參考。然而,如何將這一生命線的理念轉(zhuǎn)化為現(xiàn)實(shí)?
數(shù)據(jù)中心是一個(gè)典型的開放的復(fù)雜巨系統(tǒng),韌性不是單點(diǎn)冗余,而是全局平衡。
芯片、硬件、軟件、網(wǎng)絡(luò)、安全、運(yùn)維服務(wù),每一個(gè)環(huán)節(jié)都可能成為薄弱點(diǎn)。只有全鏈條的協(xié)同,才能讓韌性成為系統(tǒng)的本能。
白皮書呼吁,供應(yīng)商要在設(shè)計(jì)階段就考慮互聯(lián)互通與標(biāo)準(zhǔn)化,運(yùn)維方要借助AI平臺提升自動(dòng)化與智能化水平,監(jiān)管方則要推動(dòng)行業(yè)共識與標(biāo)準(zhǔn)落地。
這樣的協(xié)同不僅提升了數(shù)據(jù)中心的穩(wěn)定性,也將促使整個(gè)ICT產(chǎn)業(yè)生態(tài)向更加智能、自動(dòng)、可持續(xù)的方向演進(jìn),從而為數(shù)字經(jīng)濟(jì)的發(fā)展注入持久的新動(dòng)能。
![]()
數(shù)據(jù)中心韌性的建設(shè)不再只是IT部門的任務(wù),而是企業(yè)戰(zhàn)略層面必須考慮的議題。從建設(shè)方式到運(yùn)維模式,從風(fēng)險(xiǎn)意識到業(yè)務(wù)連續(xù)性,韌性正逐步融入DC的基因。
對于金融、能源、電信等對業(yè)務(wù)連續(xù)性零容忍的行業(yè),韌性意味著交易不中斷、能源不斷供、通信不掉線,從而守護(hù)國計(jì)民生;對于超大規(guī)模云廠商,韌性則成為承載海量應(yīng)用的基礎(chǔ)保障,讓數(shù)字服務(wù)在任何情況下都能持續(xù)交付;而在更廣泛的社會(huì)層面,韌性所帶來的穩(wěn)定性,將成為數(shù)字經(jīng)濟(jì)發(fā)展的底氣,確保無論是政府治理、公共服務(wù),還是千行百業(yè)的數(shù)字化轉(zhuǎn)型,都能在不確定的環(huán)境中保持確定性。
AI時(shí)代,韌性正在成為新的護(hù)城河。未來的數(shù)據(jù)中心不再是冷冰冰的機(jī)房,而是一張與能源、網(wǎng)絡(luò)、AI系統(tǒng)相互博弈的生命網(wǎng)。在這張網(wǎng)里,誰能率先把韌性做到位,誰就能在風(fēng)暴中占據(jù)主動(dòng)。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.