大數(shù)據(jù)和人工智能與化學(xué)基因和材料基因的融合正推動(dòng)生物醫(yī)學(xué)和新材料的前沿科學(xué)發(fā)展。近年來,機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí),已經(jīng)成為基于數(shù)據(jù)驅(qū)動(dòng)的分子尺度發(fā)現(xiàn)化學(xué)基因和材料基因強(qiáng)大方法。2019年冠狀病毒?。–OVID-19)爆發(fā)一年后還沒有特異性的有效藥物,這提醒我們生物醫(yī)藥是復(fù)雜的前沿科學(xué)領(lǐng)域,有效的藥物發(fā)現(xiàn)涉及一系列相關(guān)的分子特性,包括結(jié)合親和力、毒性、分配系數(shù)、溶解度、藥代動(dòng)力學(xué)、藥效學(xué)等等。對(duì)生物醫(yī)藥分子特性的實(shí)驗(yàn)測(cè)定是非常耗時(shí)和昂貴的。此外,涉及到動(dòng)物或人類的實(shí)驗(yàn)測(cè)試會(huì)有會(huì)有道德問題的禁區(qū)。因此,大數(shù)據(jù)和人工智能的方法在許多情況下可以產(chǎn)生快速的結(jié)果而不嚴(yán)重犧牲準(zhǔn)確性,其中最受歡迎的方法之一是定量結(jié)構(gòu)活性關(guān)系(QSAR)分析,它假定類似的分子具有類似的生物活性和理化性質(zhì)。盡管科研人員在預(yù)測(cè)分子性質(zhì)的方向已經(jīng)進(jìn)行了做大量的工作,但各種分子性質(zhì)的定量預(yù)測(cè)仍然是一個(gè)挑戰(zhàn)。
近日,北京大學(xué)深圳研究生院新材料學(xué)院的潘鋒團(tuán)隊(duì)與密歇根州立大學(xué)數(shù)學(xué)系的魏國衛(wèi)教授合作,通過融合代數(shù)圖論方法和Google開發(fā)的深度自注意力變換(Transformer)的機(jī)器學(xué)習(xí)方法提出和發(fā)展了一種新型的代數(shù)圖輔助的雙向轉(zhuǎn)化器(AGBT)框架,實(shí)現(xiàn)基于小樣本數(shù)據(jù)有效的定量預(yù)測(cè)分子特性。這一成果近期發(fā)表在《自然.通訊》(Algebraic graph-assisted bidirectional transformers for molecular property prediction. Nature Communications, 2021,12(1), 1-9.)。
圖1 代數(shù)圖論方法輔助的雙向轉(zhuǎn)化器(AGBT)框架
通常深度學(xué)習(xí)方法需要大量的數(shù)據(jù)集來進(jìn)行訓(xùn)練,在小型數(shù)據(jù)集上利用深度學(xué)習(xí)模型一般很難取得有效準(zhǔn)確的預(yù)測(cè)。在化學(xué)中,通過實(shí)驗(yàn)或者第一性原理確定有標(biāo)簽性能的數(shù)據(jù)只占少數(shù)。團(tuán)隊(duì)發(fā)現(xiàn)化學(xué)中的分子性能預(yù)測(cè)極大依賴于分子描述符或分子表示法,拓展深度學(xué)習(xí)方法來產(chǎn)生高質(zhì)量的分子描述符可以提升預(yù)測(cè)的準(zhǔn)確性,包括運(yùn)用自然語言處理(NLP)中自監(jiān)督學(xué)習(xí)方法,大量無標(biāo)簽的語言數(shù)據(jù)可被用于“預(yù)學(xué)習(xí)”和用于模型的訓(xùn)練和預(yù)測(cè),在生物醫(yī)學(xué)方面運(yùn)用分子的SMILES表示的化學(xué)語言,利用自然語言處理中的相關(guān)模型實(shí)現(xiàn)了基于自監(jiān)督學(xué)習(xí)方法的預(yù)訓(xùn)練。團(tuán)隊(duì)在研究中發(fā)現(xiàn)基于SMILES數(shù)據(jù)的訓(xùn)練模型會(huì)丟失一些分子結(jié)構(gòu)的三維信息,從而影響相應(yīng)的分子描述符的質(zhì)量,從而自主原創(chuàng)設(shè)計(jì)出一種基于代數(shù)圖論輔助的深度學(xué)習(xí)框架(AGBT),這種方法既利用了Transformer這種深度學(xué)習(xí)方法將大量無標(biāo)簽的分子數(shù)據(jù)利用起來,又借助了代數(shù)圖論的方法彌補(bǔ)了深度學(xué)習(xí)框架(Transformers)所遺失的一些三維信息,可以實(shí)現(xiàn)高質(zhì)量的分子描述符的產(chǎn)生。這種分子描述符,對(duì)小數(shù)據(jù)樣本的分子特征預(yù)測(cè)的能力有較高的提升,實(shí)現(xiàn)快速有效的定量的分子特性預(yù)測(cè)。
圖2 一種元素特異性的多尺度加權(quán)彩色代數(shù)圖論方法
此外,本工作利用代數(shù)圖圖論的方法,特別是特定元素的多尺度加權(quán)彩色代數(shù)圖論方法,將三維分子信息嵌入圖的不變量中,發(fā)展了代數(shù)圖輔助的雙向轉(zhuǎn)化器(AGBT)框架,通過融合代數(shù)圖論方法產(chǎn)生的分子描述符和Transformers產(chǎn)生的分子描述符表,實(shí)現(xiàn)與兩種分子信息的互補(bǔ)。此外,借助各種機(jī)器學(xué)習(xí)算法,包括決策樹、多任務(wù)學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)下游任務(wù)中對(duì)分子特性的預(yù)測(cè)。本工作在八個(gè)分子數(shù)據(jù)集上驗(yàn)證了所提出的AGBT框架,涉及定量毒性、物理化學(xué)和生理學(xué)數(shù)據(jù)集。大量的數(shù)值實(shí)驗(yàn)表明,所發(fā)展的AGBT是一個(gè)高效的分子特性預(yù)測(cè)模型。
文章的第一作者是北京大學(xué)深圳研究生院新材料學(xué)院的博士研究生陳冬,通信作者是潘鋒教授和魏國衛(wèi)教授。感謝國家材料基因工程重點(diǎn)專項(xiàng)和廣東與深圳科技項(xiàng)目的支持。
文章鏈接:https://doi.org/10.1038/s41467-021-23720-w
?
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請(qǐng)聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com