2017年4月12-13日,2017亞太CDN峰會在北京隆重召開,大會由亞太CDN領袖峰會、國際CDN論壇、電視新媒體CDN論壇、視頻云論壇、未來網絡論壇、C未來視頻峰會、亞太CDN展覽會等7大部分組成。在未來網絡論壇上,創新實驗室主任、助理院長文勇剛作了題為《“無人”數據中心管控和運維:人工智能帶來的變革》的主題報告。

圖為:創新實驗室主任、助理院長文勇剛
創業實驗室的主任和助理院長文勇剛先生認為借助人工智能算法來提升數據中心的運維和管控能力,來實現數據中心管控的無人化,是目前一個比較挑戰性的工作。數據中心運維當中能耗較高,以及人工智能在數據中心可能的應用,他以新加坡落實這個模式為例來具體說明這個問題。 據統計國家超過4萬個數據中心,但是能效標準遠低于國際標準,全國的POE占2.2左右,POE就是定義為所有的數據中心的能耗/IT設備能耗,它越小越好,接近于1是最好的。50%的電都拿來做智能。為了推動技術發展,在2015年發布了《綠色數據中心試點方案》,他表示在新加坡推動新加坡政府對綠色數據中心的發展時,先制定新加坡的綠色數據中心標準SS564,最后推動了新加坡NIF,相當于我們國家的基金委投入4億接下來做綠色數據中心的研究。
傳統數據中心能效管理方面三大痛點
文勇剛提出目前在傳統數據中心能效管理方面面臨著幾個比較大的痛點,第一是電費比較高,大概超過20%所有的數據中心成本來源于電費;第二是協調能力比較弱,數據中心和業務部門分屬不同的分管領導,他們的目標不一致直接造成的后果,業務部門和數據中心運維部門沒有辦法協調起來;第三風險比較高,隨著業務對數據中心的依賴性越來越強,任何小的改變對業務帶來的風險就比較大,造成大家在業務當中不愿意采用新的技術去提升運維效率。這是數據中心運營商調查中發現很多的問題。最后是要求非常嚴,數據中心要求運維性能非常高,使得一旦一個技術上線以后,很難去改變它。基于這些給數據中心運維和改進帶來很多麻煩,他們發現把人工智能算法引入數據中心,開發一套叫Cloud3DView的數據中心節能系統來解決這些麻煩。
數據中心節能系統四大特點
數據中心節能系統四大特點主要是:1.根據不同的應用場景,測算整體節能。2.方案主要是基于人工智能的算法和軟件,具有部署快、成本低的特點。3.聯合優化數據中心的供冷、配電和IT系統三個子系統,以期能夠達到一個總體的優化目標。4.通過CFD仿真和神經網絡的模擬對技術改造,通過新的運維模式來提供比較量化的風險評估和控制達到解決風險問題的目的。
人工智能和機器學習如何支撐用戶運維?在人工智能范疇里面有一個很重要的部分,叫機器學習。機器學習里面有兩個主要的模式:監督學習和無監督學習,監督學習是指有標注過的機器學習,無監督學習就是沒有標注的自主學習。在這個之外還有一個叫強化學習,強化學習是一個動態的學習過程,是一邊看一邊在學習和控制的過程。集中在把強化學習和神經網絡結合的一個新的模式,叫深度強化學習。深度強化學習比較成功的一個機器學習的方法。文勇剛舉出兩個成功的例子,一是AlphaGo打敗李世石,二是最近大家關注的德州撲克,它們都是用深度強化學習的方法,在很多方面衍生這種深度強化學習,已經在很多領域表現出能戰勝人類專家的潛力。這也是我們相信用這個技術可以很好地幫我們人做數據中心運維,達到我們以前光靠專家很難達到的效果。基于深度強化學習,數據中心無人管控總體解決方案,它是有兩套系統,物理系統,物理數據中心,通過傳感器采集它的數據,然后傳輸到我機器學習得出一些結論和控制算法,
通過這種模擬策略,用算法在一個3D模型上先進行模擬,判斷控制算法會不會對數據中心造成大的影響和危害,然后對這些結果進行可視化。管理人員可以直接看到它的效果,在效果確認之后,才會通過這樣一個控制策略直接控制物理中心。這是一個通過深度強化學習的方法,把物理系統和模擬系統建立一個綜合技術,叫做數字雙身技術,這樣一個控制流程與原來單一的只控制物理系統比較,帶來的效果會非常有效,主要體現在風險控制方面優先。
兩個核心技術
第一,供冷和計算任務的聯合優化,通過數據采集把數據中心里面的參數采集到計算引擎里面,然后把它轉化成一個目標優化的數學模型。通過機器學習解決非確定條件下的優化過程,可以開發出一些算法對數據中心有嚴格的控制,比如提出熱感知管理算法;第二是性能感知管理算法,是基于任務對供冷進行感知優化;第三是成本感知管理算法,對成本進行管理算法,我們開發這些算法回頭再控制數據中心的運維。
第二是基于深度強化學習的數據中心風險量化和評估,通過傳感器對數據中心進行實時的數據采集,把數據全部放到一個CFD,第一對熱動力學進行模擬,同時也是對他的IT所有的輸入輸出用神經網絡進行評估,評估的結果能看到它在兩部分可能遇到的問題,可以看到對方如果繼續使用會對數據中心帶來的影響,可以考慮能不能持續操作,這就有一個風險控制能力在里面。這個系統的性能指標,把POE降20%-30%,整個供冷成本減少達概到40%,節約成本10%-35%。
文勇剛表示這個成果2015年開始做,主要集中在新加坡,他們已經建立了一個比較強的博士研究生和Cloud3DView開發團隊,在新加坡開始試點,采用東芝公司提供的集裝箱數據平臺做測試平臺,在新加坡政府、金寶地產和新電信建的兩個測試平臺試產。這個算法對半導體生產企業和整個生產線進行控制,可以達到節省成本的效果。東南亞業界對此項技術十分認可,在2015年授予了堪稱數據中心行業的奧斯卡獎。
至少在觀念上和傳統數據中心運維有一些差別。在新加坡主要是在政府的支持下做試點和落地,主要建立了云平臺,用SaaS方式幫新加坡政府各個IT數據中心進行節能優化,在這個平臺上為每個政府不同部委數據中心建立獨立的平臺,我們按他的每個項目收一點成本費。當然現在我們也收建設費,如果它對每個數據基本上是按照每年實際節電費再收取一點錢,大概現在已經有十多個新加坡不同部委的數據中心已經聯到我這個平臺上幫他做數據中心管控。
文勇剛指出,在全球背景下,從2012年左右開始,在2015年完成第一期的時候做試點,雖然在試點的時候遇到一些人的挑戰,但是到2016年谷歌發布新聞發布會,人工智能算法實現了制冷能耗,能耗節省高達40%,取得了較好的成效。他指出現在國內還沒有公司具體做此項工作,主要是和其他公司、包括國內外公司的合作,比如最近正在與新加坡做的聯合項目。研究如何用人工智能的方法去提高數據中心能耗標準,同時對風險又有一個比較量化的管理和控制是目前的主要內容。
責任編輯:方珍