2017年07月04日 瀏覽次數: 0
2017可靠系統(tǒng)和網絡國際會議(DSN 2017)6月26至29日在美國丹佛市召開。交叉信息院徐葳助理教授研究組的研究論文《分析四年的數據中心硬件故障日志,我們學到了什么?》(What Can We Learn from Four Years of Data Center Hardware Failures?)獲得最佳論文獎,是國內單位歷史上首次獲得此項獎勵。論文第一作者、交叉信息院2014級博士研究生王國賽在大會全體會議上做了口頭報告。
DSN'17指導委員會主席Felicita Di Giandomenico教授為王國賽頒發(fā)證書
論文定量分析了百度數據中心四年以來的服務器故障報告。服務器硬件故障是大規(guī)模數據中心的可靠性的重要影響因素。此前針對故障模式的研究主要集中在高性能計算集群或者單一硬件設備上。然而,數據中心普遍采用商品化的、相對不可靠硬件,同時運行高度異構的硬件和軟件,這使其故障模型也相對復雜。王國賽同學全面系統(tǒng)地分析了過去四年百度數據中心中對上十萬臺服務器監(jiān)控采集得到的29萬條硬件故障操作單,并從時間、空間、硬件設備、產品線、運維人員的響應等多個維度分析硬件故障的規(guī)律和模式。論文不僅驗證或拓展了此前相關研究提出的結論,而且從許多方面揭示了全新的故障規(guī)律和模式,核心發(fā)現包括:數據中心中硬件故障在時間上分布極不均衡,在空間上分布有時不均衡;數據中心中關聯(lián)故障尤其是批次故障非常普遍;在硬件可靠性影響著軟件容錯設計的同時,軟件的冗余也在影響著運維人員對于硬件故障的處理策略等等。這一研究對于深入理解數據中心的故障模式,以及下一代數據中心的容錯的軟、硬件和運維設計,都有重要的啟示作用。
此項工作由徐葳研究組和和百度公司智能數據中心團隊(Data Center Intelligence/Interconnection)合作完成,論文第一作者是王國賽,通訊作者是徐葳助理教授。研究工作得到國家自然科學基金、清華大學自主科研項目、教育部在線教育研究中心(全通項目)等項目經費支持。DSN是系統(tǒng)與網絡可靠性領域的頂級會議,已經連續(xù)舉辦47屆。本年度DSN從220篇投稿中錄用了49篇論文,錄用率為22.3%,其中來自國內單位的論文僅4篇。會議最佳論文獎歷經程序委員會推薦、指導委員會提名的嚴格評選流程,最終由全體參會者在3篇提名論文中投票選出。
?
版權與免責聲明:本網頁的內容由收集互聯(lián)網上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構成其他建議。僅提供交流平臺,不為其版權負責。如涉及侵權,請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com