?
一個(gè)人在成長過程中會(huì)遇到各種各樣的選擇問題,如一些人生規(guī)劃的抉擇:上哪所大學(xué),學(xué)什么專業(yè),去哪家公司,等等。再如我們進(jìn)入一家電玩城,那里擺著一排老虎機(jī),雖然外表一模一樣,但是每個(gè)老虎機(jī)吐錢的概率卻不一樣,作為一名資深玩家應(yīng)該選擇搖動(dòng)哪臺(tái)老虎機(jī)呢(圖1)?這些選擇問題有沒有什么科學(xué)的辦法來解決呢?答案是:有!而且是非??茖W(xué)的辦法,那就是強(qiáng)化學(xué)習(xí)中的多臂老虎機(jī)算法。該算法可以科學(xué)地推薦收益最大的方案,而且能夠應(yīng)用于許多領(lǐng)域,如:一種新疾病(如新冠),如何嘗試各種治療方法,來盡快治愈病人?一個(gè)新產(chǎn)品,如何調(diào)整定價(jià),來獲得最大收入?一個(gè)新聞稿,如何嘗試推薦,來獲得最多總點(diǎn)擊次數(shù)?在大名鼎鼎的阿爾法狗(AlphaGo)中,也能看到多臂老虎機(jī)算法的身影。
圖1. 多臂老虎機(jī)模型
最近,北京大學(xué)化學(xué)與分子工程學(xué)院的劉志榮教授課題組將多臂老虎機(jī)算法應(yīng)用于天然無序蛋白質(zhì)的藥物設(shè)計(jì)問題,大大加速了基于構(gòu)象系綜的配體虛擬篩選過程(圖2)。
圖2. 多臂老虎機(jī)的強(qiáng)化學(xué)習(xí)算法可以應(yīng)用于無序蛋白的配體虛擬篩選。
天然無序蛋白質(zhì)(Intrinsically Disordered Proteins)沒有固定的三維結(jié)構(gòu),卻具有正常的生物學(xué)功能,不但是對蛋白質(zhì)“結(jié)構(gòu)-功能”傳統(tǒng)范式的重要補(bǔ)充,而且因其與多種疾病密切相關(guān)而成為重要的潛在藥物靶標(biāo)。無序蛋白與小分子的相互作用機(jī)制與傳統(tǒng)的有序蛋白迥然不同,在生理?xiàng)l件下是以包含很多不同構(gòu)象的系綜形式存在的,單單針對某一個(gè)構(gòu)象設(shè)計(jì)藥物并不能保證對整個(gè)無序蛋白系綜的結(jié)合有效性。如果對系綜中的所有構(gòu)象進(jìn)行分子對接,再結(jié)合統(tǒng)計(jì)熱力學(xué)原理將對接結(jié)果綜合起來,理論上是可以得到藥物配體與無序蛋白的結(jié)合親和力(J. Chem. Inf. Model. 2020, 60, 4967)(圖3)。但是,與傳統(tǒng)的藥物設(shè)計(jì)流程相比,這種做法的計(jì)算量將暴增成千上萬倍,這在實(shí)際應(yīng)用中是無法接受的。那么,有沒有可能存在某種算法,既能夠大大降低計(jì)算量,又能保持較高的篩選性能?
圖3. 表觀親和力與單個(gè)構(gòu)象和配體的相互作用自由能有關(guān)
事實(shí)上,這種可能性是存在的。關(guān)鍵是需要認(rèn)識(shí)到虛擬篩選的目的不是準(zhǔn)確地計(jì)算所有小分子配體(數(shù)目通常高達(dá)十萬)的親和力,而是篩選出少量的(數(shù)目在100左右)具有最大親和力的“頂尖”配體。對于位于金字塔底部的大量配體,是沒有必要準(zhǔn)確計(jì)算的。這與多臂老虎機(jī)問題非常相似。對于這個(gè)老虎機(jī)問題,顯然最佳的做法是找到那個(gè)預(yù)期收益最大的拉桿并不斷地去拉動(dòng)它。但是,玩家無法預(yù)先知道每一個(gè)拉桿的期望值,必須根據(jù)拉動(dòng)的結(jié)果來動(dòng)態(tài)地進(jìn)行估計(jì)。多臂老虎機(jī)問題的目的是找出最有價(jià)值的1個(gè)拉桿,而虛擬篩選的目的是找出最有價(jià)值的100個(gè)配體,它們的核心問題是共通的。
基于這些認(rèn)識(shí),劉志榮課題組提出了一種可逆的UCB算法(reversible upper confidence bound, rUCB),用于對無序蛋白的強(qiáng)化學(xué)習(xí)虛擬篩選過程。在測試中,rUCB展現(xiàn)出了非常優(yōu)異的效果。例如,在人工數(shù)據(jù)的測試中,對于十萬個(gè)配體,只需要進(jìn)行二十萬次對接(即平均每個(gè)配體只需要對接兩次),所挑選出的親和力最大的100個(gè)配體的準(zhǔn)確性高達(dá)94%。對真實(shí)癌蛋白c-Myc的虛擬篩選中,rUCB也有很好的效果(圖4)。
圖4. 強(qiáng)化學(xué)習(xí)rUCB算法在癌蛋白c-Myc的配體虛擬篩選中的結(jié)果。
該工作表明強(qiáng)化學(xué)習(xí)算法可以有效解決無序蛋白藥物設(shè)計(jì)的配體虛擬對接中構(gòu)象數(shù)目過多所導(dǎo)致的瓶頸問題。研究成果以“Reinforcement learning to boost molecular docking upon protein conformational ensemble”為題發(fā)表在Phys. Chem. Chem. Phys. (2021, 23, 6800-6806)上。(https://pubs.rsc.org/en/content/articlelanding/2021/cp/d0cp06378a#!divAbstract)。 ?論文第一作者為北京大學(xué)化學(xué)學(xué)院2021屆博士畢業(yè)生崇濱,通訊作者為劉志榮教授。該項(xiàng)研究受到國家自然科學(xué)基金委員會(huì)重點(diǎn)項(xiàng)目(21633001)和北京分子科學(xué)國家研究中心的資助。
?
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com