交叉信息院擬入職助理教授吳翼帶來多智能體強化學習講座
2019年10月24日 瀏覽次數(shù): 0
? ? ? ?10月24日下午,交叉信息院姚班2010級校友、擬入職助理教授吳翼帶來題為“Curriculum, Evolution and Emergent Complexity with Multi-Agent Reinforcement Learning”的講座。本次講座由交叉信息院吳文斐助理教授主持,交叉信息院助理教授馬愷聲、于洋以及近40名叉院學子共同聽取了講座。
? ? ? 吳翼在講座中介紹了其最新的研究成果——利用多智能體深度強化學習(multi-agent deep reinforcement learning)使智能體自動習得與人類行為相似的策略和技能。吳翼以人類智能的誕生為切入點,探討了“智能”的本源。他回顧了“達爾文的麻雀(Darwin’s finch)”的故事,總結了人類進化出智能的四個關鍵點:?進化總是從簡到繁循序漸進的;不同物種之間通過互動(interaction)而共同進化;地球生態(tài)圈的復雜性導致了物種的多樣性和復雜性;?進化需要一個較大的種群,而較大的種群也往往會有相應的群體行為。? ? ?受生物進化的啟發(fā),吳翼指出,要搭建真正的人工智能,則需要滿足模擬環(huán)境足夠復雜和多智能體需要循序漸進的共同進化?(co-evolve)。基于這兩個準則,吳翼介紹了兩項最新的工作:通過捉迷藏游戲讓智能體在物理環(huán)境下學會復雜表現(xiàn);如何有效使用強化學習在智能體數(shù)量很大的情況下學出群體行為。
? ? ? 在第一項工作中,吳翼展示了OpenAI?多智能體研究團隊的最新成果——在捉迷藏游戲中,僅僅使用簡單的+1/-1獎勵,以及大規(guī)模強化學習、智能體自動進化,便掌握了工具使用,并總結出了6個不同的套路和反套路。此外,吳翼也展示了在研究過程中智能體習得的出人意料的表現(xiàn),如利用物理引擎的bug得出的非常規(guī)策略等。為了能夠量化研究智能體行為的復雜性,吳翼所在的OpenAI團隊提出了5個不同的智能體測試,在這些測試中,通過強化學習得到智能體都能夠得到最高的分數(shù)。在這個工作的末尾,吳翼也總結和這個工作的核心點:多智能體強化學+復雜模擬環(huán)境→類似人類的智能行為;并提出了進一步研究的方向。? ? ?在第二項工作中,吳翼展示了他與研究組的最新算法:Evolutionary Population Curriculum?(EPC)。該工作從人的個體發(fā)展經(jīng)歷出發(fā),提出需要得出大規(guī)模智能體的群體智能,必須從簡單場景出發(fā)——即先從比較少量智能體出發(fā),逐步提高智能體的規(guī)模并最終得出復雜的群體行為。吳翼分析了這個漸進訓練過程中的技術問題,并提出使用基于注意力機智的策略表示,以及基于進化算法的目標修正算法。吳翼在三個不同的游戲場景下展示了EPC算法的顯著效果,并定量的分析了EPC算法的優(yōu)秀的泛化性和穩(wěn)定性。吳翼總結了這個工作的核心,即循序漸進的訓練以及進化算法的使用,并提出了若干開放問題(open?question)。? ? ?講座的最后,吳翼就目前強化學習的進展做了深度總結,并對利用多智能體深度強化學習實現(xiàn)強人工智能提出了展望與希冀。? ? ?吳翼現(xiàn)任OpenAI 多智能體研究團隊的研究員,擬于2020年加入交叉信息院擔任助理教授,師從Stuart Russell教授,于加州大學伯克利分校獲得博士學位,研究聚焦于人工智能、深度強化學習、概率編程語言、自然語言處理等領域,其論文 Value Iteration Network榮獲NIPS 2016年度最佳論文獎。
?
文、圖/ 吳晨
版權與免責聲明:本網(wǎng)頁的內容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構成其他建議。僅提供交流平臺,不為其版權負責。如涉及侵權,請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com