2021年04月15日 瀏覽次數(shù): 0
? ? ? ?近日,交叉信息研究院2018級在讀碩士生劉俊林、陳奕熹和交叉信息研究院助理教授吳文斐等作者合作完成的論文《ATP:面向多租戶的深度學習訓練聚合傳輸協(xié)議》(ATP: Innetwork Aggregation for Multitenant Learning)獲得第18屆USENIX網(wǎng)絡(luò)系統(tǒng)設(shè)計與實現(xiàn)年會(Symposium on Network System Design and Implementation)最佳論文獎。這是清華大學首次以第一作者單位獲得該會議的最佳論文獎,亦是中國高校(含港澳臺地區(qū))首次在該會議取得最佳論文獎。
圖1?吳文斐研究組
?
? ? ? ?隨著機器學習數(shù)據(jù)量和模型規(guī)模的擴大以及其應用場景的擴展(例如聯(lián)邦學習),機器學習系統(tǒng)逐步以分布式的方式來部署和實現(xiàn),尤其是在數(shù)據(jù)中心或多租戶多訓練工作同步進行的私有集群場景。在最近的一些工作指出,部分訓練工作的網(wǎng)絡(luò)傳輸時長占著訓練時間愈來愈高的比例,甚至已經(jīng)成為瓶頸,制約著分布式學習系統(tǒng)的整體效率。與此同時,通過對分布式學習訓練的研究,文章作者注意到分布式訓練的網(wǎng)絡(luò)傳輸部分有著可以優(yōu)化的流量模式,再利用與可編程網(wǎng)絡(luò)的共同設(shè)計,提出了ATP系統(tǒng)。
圖2?ATP?聚合過程圖示
?
? ? ? ?ATP是一套面向于多租戶多機架場景的機器學習訓練加速協(xié)議,利用可編程交換機技術(shù)對分布式訓練的網(wǎng)絡(luò)傳輸部分進行聚合優(yōu)化,建立了一套由終端主機網(wǎng)絡(luò)協(xié)議棧和可編程交換機共同交互組成的高速分布式訓練協(xié)議,在網(wǎng)絡(luò)中提供盡力服務(best-effort)及資源動態(tài)分配(dynamic)的聚合語義,并考慮了多租戶場景下的競爭策略,重新設(shè)計了丟包恢復和擁塞控制算法。實驗表明ATP協(xié)議在各個不同的模型中效能超越了現(xiàn)時主流通用的分布式框架,并在競爭嚴重的多租戶場景下維持了十分良好的效能。
?
? ? ? 圖3?ATP?與不同體系結(jié)構(gòu)的訓練效果的對比
?
?????此項工作由吳文斐助理教授研究組與威斯康星大學麥迪遜分校Aditya Akella教授研究組合作完成。劉俊林同學為論文第一作者,吳文斐助理教授為通訊作者。
? ? ? ?NSDI是USENIX旗下的旗艦會議之一,也是計算機網(wǎng)絡(luò)系統(tǒng)領(lǐng)域的頂級會議。NSDI側(cè)重于網(wǎng)絡(luò)系統(tǒng)的設(shè)計與實現(xiàn),享負盛名的大數(shù)據(jù)系統(tǒng)Spark就發(fā)表在2012年的NSDI大會上,并取得當年的最佳論文獎。本屆NSDI大會共收到369篇投稿論文,并最終接收59篇,接收率為16%,每屆NSDI大會都會評選出1篇最佳論文。
?
版權(quán)與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負責。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com