2020年01月09日 瀏覽次數(shù): 0
?近日,深度學(xué)習(xí)領(lǐng)域頂級會議International Conference on?Learning Representations(ICLR,國際表征學(xué)習(xí)大會)公布了2020年論文錄用情況,交叉信息院共11篇論文被大會接收,其中5篇(5人次)來自交叉信息院研究生,6篇(5人次)來自計算機(jī)科學(xué)實驗班(姚班)計科60。
?
圖自論文《梯度下降可最大化齊次神經(jīng)網(wǎng)絡(luò)的分類間隔》(呂凱風(fēng),李建)
?
2018級碩士生王同翰、2019級博士生王鑒浩、2015級博士生朱廣翔、2019級碩士生駱軒源和2019級博士生呂凱風(fēng)發(fā)表的5篇論文中,研究內(nèi)容涵蓋多智能體強(qiáng)化學(xué)習(xí)中的探索-利用困境、可擴(kuò)展多智能體學(xué)習(xí)的值函數(shù)分解、深度強(qiáng)化學(xué)習(xí)的樣本效率、深度學(xué)習(xí)中梯度算法的泛化誤差界、以及深度學(xué)習(xí)中梯度算法的隱式偏好等問題。其中,由我院李建副教授指導(dǎo)呂凱風(fēng)共同完成的論文《梯度下降可最大化齊次神經(jīng)網(wǎng)絡(luò)的分類間隔》為口頭報告論文(Talk);由我院張崇潔助理教授指導(dǎo)王同翰和王鑒浩共同完成的論文《基于相互影響的多智能體協(xié)作探索》為大會亮點論文(Spotlight)。
?
王遠(yuǎn)皓、董克凡、張?zhí)炜v、王蘊(yùn)韻和鄒岳松5名計科60同學(xué)累計發(fā)表的6篇論文中,研究內(nèi)容涵蓋強(qiáng)化學(xué)習(xí)中免模型算法的高采樣效率、分布式老虎機(jī)任務(wù)中的悔恨值最小化的問題、局部求解最小最大優(yōu)化問題、神經(jīng)網(wǎng)絡(luò)的泛化性能、泛音卷積運(yùn)算和對超圖的特征學(xué)習(xí)問題等。其中,王遠(yuǎn)皓同學(xué)此次發(fā)表3篇一作論文。張?zhí)炜v合作完成的論文《兩層神經(jīng)網(wǎng)絡(luò)的漸進(jìn)泛化分析》入選大會亮點論文(Spotlight)。
?
ICLR是公認(rèn)的深度學(xué)習(xí)領(lǐng)域國際頂級會議之一,關(guān)注有關(guān)深度學(xué)習(xí)各個方面的前沿研究。近年來因在人工智能、統(tǒng)計和數(shù)據(jù)科學(xué)領(lǐng)域以及機(jī)器視覺、語音識別、文本理解等重要應(yīng)用領(lǐng)域中發(fā)布了眾多極其有影響力的論文而廣受關(guān)注。ICLR采取完全公開評審規(guī)則,任何對論文有興趣的研究者都可以參與到關(guān)于論文評審意見的討論中。這使得ICLR論文評審的透明性和廣泛性在深度學(xué)習(xí)頂會中獨(dú)樹一幟,同時也大大增加了論文被接收的難度。ICLR 2020共有2594篇論文提交,其中48篇被接收為Talk,107篇被接收為Spotlight,532篇作為Poster。
?
發(fā)表論文信息:
1.Gradient Descent Maximizes the Margin of Homogeneous Neural Networks. Kaifeng?Lyu, Jian Li. (Talk)
由我院李建副教授指導(dǎo)呂凱風(fēng)共同完成的論文《梯度下降可最大化齊次神經(jīng)網(wǎng)絡(luò)的分類間隔》研究了梯度下降算法在齊次神經(jīng)網(wǎng)絡(luò)訓(xùn)練中對不同最優(yōu)解的隱式偏好。常見的齊次神經(jīng)網(wǎng)絡(luò)包括了ReLU激活的全連接或卷積神經(jīng)網(wǎng)絡(luò),分析梯度下降在這類網(wǎng)絡(luò)上是否會收斂到分類間隔較大的最優(yōu)解,可以幫助我們更好地理解神經(jīng)網(wǎng)絡(luò)的優(yōu)化及泛化問題。本文的理論分析表明,離散的梯度下降和連續(xù)的梯度流在最小化齊次神經(jīng)網(wǎng)絡(luò)的邏輯損失或交叉熵?fù)p失的過程中,也會逐漸增大標(biāo)準(zhǔn)化分類間隔的一個光滑版變種。經(jīng)過足夠長的訓(xùn)練,標(biāo)準(zhǔn)化分類間隔及其光滑版變種還將收斂到同一極限,并且該極限和一個分類間隔最大化問題的KKT點處值相等。本文的結(jié)果極大地推廣了前人在線性網(wǎng)絡(luò)上得到的類似結(jié)果;相比于前人在齊次網(wǎng)絡(luò)上的研究,也在使用的假設(shè)更弱的情況下給出了更量化的結(jié)果。
2.Influence-Based Multi-Agent Exploration. Tonghan Wang*, Jianhao Wang*,Yi Wu, Chongjie Zhang. (Spotlight)
由我院張崇潔助理教授指導(dǎo),2018級碩士生王同翰及2019級博士生王鑒浩共同完成的論文《基于相互影響的多智能體協(xié)作探索》研究了強(qiáng)化學(xué)習(xí)中的經(jīng)典問題:探索-利用困境。多智能體強(qiáng)化學(xué)習(xí)一直缺少有效的探索策略。該論文首次提出通過激勵智能體間相互影響來提高協(xié)作探索的框架與方法。作者提出了利用互信息和交互價值來形式化刻畫智能體間的相互影響,進(jìn)一步推導(dǎo)了互信息和交互價值相對于智能體策略的導(dǎo)數(shù),將兩者的優(yōu)化融入到了經(jīng)典的策略梯度強(qiáng)化學(xué)習(xí)框架中,得到了簡潔的優(yōu)化公式。該方法揭示了多智能體協(xié)作探索與個體內(nèi)在獎賞分配之間的聯(lián)系,并在測試集上取得了超過其他算法至少2倍的探索效率。
3.Generalization of Two-Layer Neural Networks: An Asymptotic Viewpoint. Jimmy Ba,Murat Erdogdu, Taiji Suzuki, Denny Wu, Tianzong Zhang. (Spotlight)
由計科60張?zhí)炜v同學(xué)合作完成的論文《兩層神經(jīng)網(wǎng)絡(luò)的漸進(jìn)泛化分析》主要聚焦于神經(jīng)網(wǎng)絡(luò)的泛化性能。這一問題是現(xiàn)在機(jī)器學(xué)習(xí)領(lǐng)域的重要課題。該論文討論了漸近意義下兩層神經(jīng)網(wǎng)絡(luò)的泛化性能問題。特別地,在漸近意義下(即高維、多神經(jīng)元、多樣本,且三者以同一速率趨于無窮時),對于最小二乘的線性回歸問題,該論文計算了以不同方法優(yōu)化(以不同初值優(yōu)化第一層或第二層)帶來的測試誤差的準(zhǔn)確值,而已有文獻(xiàn)一般只給出了誤差界。該文章對于研究神經(jīng)網(wǎng)絡(luò)中過參數(shù)化和初值的作用有一定指導(dǎo)意義。
4.Q-learning with UCB Exploration is Sample Efficient for Infinite-Horizon MDP. Yuanhao?Wang, Kefan Dong, Xiaoyu Chen, Liwei Wang. (Poster)
由計科60董克凡、王遠(yuǎn)皓兩位同學(xué)在北京大學(xué)王立威教授指導(dǎo)下完成的論文《在無限長馬爾可夫決策過程中采用UCB探索策略的Q學(xué)習(xí)算法具有高采樣效率》研究了強(qiáng)化學(xué)習(xí)中的一個基本問題:免模型算法是否具有高采樣效率?最近,Jinet al. 提出了采用置信區(qū)間上界(UCB)探索策略的Q學(xué)習(xí)算法,并證明了在有限長馬爾可夫決策過程中有接近最優(yōu)的表現(xiàn)。這篇論文進(jìn)一步研究了無限長、有折扣獎勵、不使用生成模型的馬爾科夫決策過程中采用UCB探索的Q學(xué)習(xí)算法,并證明了該算法的采樣效率優(yōu)于之前的結(jié)果,并且是接近最優(yōu)的。
5.Distributed Bandit Learning: Near-Optimal Regret with Efficient Communication. Yuanhao?Wang, Jiachen Hu, Xiaoyu Chen, Liwei Wang. (Poster)
計科60的王遠(yuǎn)皓同學(xué)與合作者完成的論文《分布式老虎機(jī):用高效的通信達(dá)到接近最優(yōu)的悔恨值》研究了在分布式老虎機(jī)任務(wù)中的悔恨最小化的問題:M個玩家在一個中央服務(wù)器協(xié)調(diào)下合作,希望最小化總體的悔恨值,且以總通信數(shù)據(jù)量計量的通信開銷盡量小。對于分布式K臂老虎機(jī),該論文提出了一個悔恨值接近最優(yōu)同時通信開銷僅有O(Mlog(MK))的協(xié)議。這里的通信開銷與總時間T無關(guān),與臂的數(shù)量只有對數(shù)級的依賴,并且與下界只有一個對數(shù)因子的差距。對于分布式d維線性老虎機(jī),該論文提出了一個悔恨值接近最優(yōu)同時通信開銷為\Tilde{O}(Md)的協(xié)議,其中通信開銷對T只有對數(shù)級的依賴。
6.On Solving Minimax Optimization Locally: A Follow-the-Ridge Approach. Yuanhao?Wang, Guodong Zhang, Jimmy Ba. (Poster)
計科60的王遠(yuǎn)皓同學(xué)與合作者共同完成的論文《局部求解最小最大優(yōu)化問題:跟隨山脊法》在最小最大優(yōu)化問題上提出了新算法。許多現(xiàn)代的機(jī)器學(xué)習(xí)任務(wù)都可以描述成在序貫博弈中尋找均衡的問題。特別地,兩人零和序貫博弈,也稱為最小最大優(yōu)化,正受到越來越多的關(guān)注。由于梯度下降在有監(jiān)督學(xué)習(xí)中獲得了成功,將其應(yīng)用到最小最大優(yōu)化中是一個很自然的想法。然而,研究者發(fā)現(xiàn)簡單地應(yīng)用梯度下降是無法找到某些局部最小最大點的,而且會錯誤地收斂到非局部最小最大點。這篇文章提出了一個稱為跟隨山脊法的新算法,并且證明了它收斂且只會收斂到局部最小最大點。他們從理論上證明了該算法能減小梯度方法帶來的旋轉(zhuǎn)現(xiàn)象,并且與預(yù)條件法和動量法兼容。實驗表明,跟隨山脊法能解決簡單的最小最大問題,還能改進(jìn)對抗生成網(wǎng)絡(luò)訓(xùn)練的收斂性。
7.Deep Audio Priors Emerge From Harmonic Convolutional Networks. Zhoutong Zhang, Yunyun?Wang, Chuang Gan, Jiajun Wu, Joshua B. Tenenbaum, Antonio Torralba, WilliamT. Freeman. (Poster)
由計科60 王蘊(yùn)韻同學(xué)參與完成的論文《泛音卷積網(wǎng)絡(luò)產(chǎn)生深度音頻先驗》提出了適用于音頻處理網(wǎng)絡(luò)的泛音卷積運(yùn)算,并研究了不同聲音架構(gòu)捕捉深度音頻先驗的能力。泛音卷積運(yùn)算充分利用了自然聲音中泛音的特性,使得卷積關(guān)注在泛音結(jié)構(gòu)而非普通卷積的鄰域結(jié)構(gòu)上。相對于傳統(tǒng)的音頻網(wǎng)絡(luò),泛音卷積網(wǎng)絡(luò)可以更有效地捕捉深度音頻先驗。在無監(jiān)督音頻還原任務(wù)和音源分離任務(wù)上,泛音卷積網(wǎng)絡(luò)也取得了更好的表現(xiàn)。
8.Hyper-SAGNN: a self-attention based graph neural network for hypergraphs.Ruochi Zhang, Yuesong Zou, Jian Ma. (Poster)
由計科60的鄒岳松同學(xué)參與完成的論文《Hyper-SAGNN:一種基于自注意機(jī)制的針對超圖的圖神經(jīng)網(wǎng)絡(luò)》研究了對超圖的特征學(xué)習(xí)問題。超圖是一種廣義上的圖,它的一條邊——超邊可以連接任意數(shù)量的頂點。使用超圖能更有效地描述真實世界網(wǎng)絡(luò)數(shù)據(jù),例如論文的共同作者關(guān)系。傳統(tǒng)方法將超邊中元素拆成兩兩關(guān)系或者對超邊建立新節(jié)點,這樣做的同時丟失了信息。亦有直接對超邊進(jìn)行學(xué)習(xí)的研究,但要求超邊大小須統(tǒng)一。該論文提出了一種直接針對超邊的基于自注意力特征提取模型,該模型在超邊大小不一致時同樣有效。同時該論文將點特征提取的node2vec算法推廣到了超圖,用該方法計算出的點特征初始化模型可以加速收斂。Hyper-SAGNN在準(zhǔn)確率上較傳統(tǒng)方法和前人的超邊學(xué)習(xí)模型上均有顯著提升。此外該模型還可用于離群值鑒定,推測超邊中關(guān)系與其他頂點較弱的點,這使得它有應(yīng)用于超圖降噪的潛力。
9.Learning Nearly Decomposable Value-Functions via Communication Minimization. Tonghan?Wang*, Jianhao Wang*, Chongyi Zheng, Chongjie Zhang. (Poster)
由我院張崇潔助理教授指導(dǎo),2018級碩士生王同翰及2019級博士生王鑒浩共同完成的論文《學(xué)習(xí)近似可分解值函數(shù)》提出了新穎的基于值函數(shù)的多智能體強(qiáng)化學(xué)習(xí)算法。為了提高多智能體強(qiáng)化學(xué)習(xí)的可擴(kuò)展性,該論文首次提出了近似最簡可分解值函數(shù)結(jié)構(gòu)以及學(xué)習(xí)方法,解決了傳統(tǒng)完全可分解值函數(shù)的局限性。該方法通過分析智能體決策過程之間的相互依賴性,動態(tài)最大化分解智能體的決策,并學(xué)習(xí)通過最少信息傳遞來有效提高多智能體系統(tǒng)的整體協(xié)作。在具體實現(xiàn)上,該方法通過最大化傳遞信息與局部值函數(shù)之間的互信息,并最小化信息的熵來構(gòu)造近似最簡可分解值函數(shù)結(jié)構(gòu),并進(jìn)一步通過推導(dǎo)變分下限使得優(yōu)化目標(biāo)變得可計算。在星際爭霸2局部戰(zhàn)役測試集上,該算法比已有多智能體強(qiáng)化學(xué)習(xí)算法展現(xiàn)了明顯更優(yōu)的性能,并可以在大多數(shù)任務(wù)下達(dá)到80%以上的值函數(shù)分解程度。
10.Episodic Reinforcement Learning with Associative Memory. Guangxiang Zhu*,Zichuan Lin*, Guangwen Yang, Chongjie Zhang. (Poster)
由我院助理教授張崇潔老師指導(dǎo),我院2015級博士生朱廣翔及計算機(jī)系2016級博士生林子釧共同完成的論文《基于聯(lián)想記憶的情景控制強(qiáng)化學(xué)習(xí)》著眼于提高深度強(qiáng)化學(xué)習(xí)的樣本利用效率。認(rèn)知學(xué)研究發(fā)現(xiàn),人類的高效學(xué)習(xí)部分源于類似情景控制的學(xué)習(xí)模式。在日常學(xué)習(xí)中我們會記住一些成功的經(jīng)歷,每當(dāng)遇到一個新情景時,我們會從記憶中搜索過去遇到過的相似經(jīng)歷,根據(jù)當(dāng)時成功的策略來做出快速決策。該論文提出了一個新穎的策略學(xué)習(xí)框架,結(jié)合情景控制和強(qiáng)化學(xué)習(xí),將情景記憶中有關(guān)系的經(jīng)歷關(guān)聯(lián)起來,將獨(dú)立的記憶碎片連結(jié)形成了聯(lián)想記憶網(wǎng),更高效地利用已有的成功經(jīng)歷來提高強(qiáng)化學(xué)習(xí)效率。具體來說,該論文基于狀態(tài)轉(zhuǎn)換函數(shù)進(jìn)行建圖,將所有記憶中的狀態(tài)關(guān)聯(lián)起來,并開發(fā)了一個高效的傳播算法,使得值函數(shù)可以在圖上進(jìn)行快速更新迭代,最后利用它們更好地指導(dǎo)強(qiáng)化學(xué)習(xí)。在經(jīng)典Atari游戲上的實驗結(jié)果表明,該方法提高4倍以上學(xué)習(xí)效率。
11.On Generalization Error Bounds of Noisy Gradient Methods for Non-ConvexLearning. Jian Li, Xuanyuan Luo, Mingda Qiao. (Poster)
由2019級碩士生駱軒源及2018屆姚班校友喬明達(dá)在我院李建副教授的指導(dǎo)下,共同合作完成的論文《論非凸學(xué)習(xí)下有噪聲梯度方法的泛化誤差上界》主要在理論上分析了若干學(xué)習(xí)算法的泛化能力。泛化誤差也即一個學(xué)習(xí)算法在訓(xùn)練集和真實未知數(shù)據(jù)集上表現(xiàn)的差距,是機(jī)器學(xué)習(xí)理論最重要的問題之一?;谠撐男绿岢?/span>Bayes-Stability理論框架,作者得到了比前人更優(yōu)的SGLD的期望泛化誤差上界O(G/n),其中G和n分別是訓(xùn)練路徑上梯度的范數(shù)之和以及訓(xùn)練集大小。同時該上界對于非高斯噪音、動量加速、和滑動平均等擴(kuò)展情況一樣成立。除此之外,該文還證明了連續(xù)時間朗之萬運(yùn)動(CLD)任意時刻的Log-Sobolev不等式,基于該結(jié)論,作者證明了在加入了l2正則化之后,CLD的期望泛化誤差以O(1/n)的速度減小,并且該上界可以與訓(xùn)練時間無關(guān)。
?
(文/孫帥)
?
?
?
?
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com