機(jī)器學(xué)習(xí)在各領(lǐng)域的廣泛應(yīng)用促生其在材料領(lǐng)域的應(yīng)用,它提供了一種新型的工具,即能從高維數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)間的規(guī)律,有助于減少計(jì)算量從而加速對新材料的探索。特征提?。ㄌ卣鞴こ蹋┦菣C(jī)器學(xué)習(xí)的關(guān)鍵組成部分,選擇合適的形式來表達(dá)將直接影響最終模型的效果。在材料科學(xué)領(lǐng)域必須要捕獲所有的相關(guān)信息,從而達(dá)到區(qū)分不同原子和不同晶體環(huán)境的作用。因此在材料領(lǐng)域中,特征可以是簡單的確定原子序數(shù),可能涉及復(fù)雜的轉(zhuǎn)換,比如徑向分布函數(shù)(RDFs)的擴(kuò)展,也可能是聚合統(tǒng)計(jì)數(shù)據(jù)(例如求平均值、求最大值等)。
在數(shù)學(xué)中,拓?fù)淇梢杂脕硖幚砜臻g中不同組件的連通性,并表征空間中獨(dú)立的實(shí)體,環(huán)和高維拓?fù)涿?。拓?fù)涮峁┝俗罡呒?jí)別的抽象因此可以作為一種處理高維結(jié)構(gòu)數(shù)據(jù)的有效工具。其中,拓?fù)鋽?shù)學(xué)的持續(xù)同調(diào)(persistent homology)通過將多尺度幾何信息嵌入拓?fù)洳蛔兞繌亩鴮缀畏治龊屯負(fù)浞治鲞B接起來,它是一種在變化的尺度中分析拓?fù)浣Y(jié)構(gòu)的一種重要的方法?;舅枷胧请S著原子尺度的變化記錄結(jié)構(gòu)的拓?fù)洳蛔兞浚ɡ绂?, β1 和 β2),從而得到拓?fù)渲讣y(如圖1所示)。
圖1 類苯環(huán)結(jié)構(gòu)的拓?fù)渲讣y示意圖及碳硼烷結(jié)構(gòu)的預(yù)測
在此過程中,利用持續(xù)時(shí)間較長的拓?fù)涮卣鱽肀碚飨到y(tǒng)的內(nèi)在特性,通過預(yù)先設(shè)定的閾值進(jìn)行過濾。在三維空間中,獨(dú)立組成、環(huán)和腔是非常重要的拓?fù)涮卣?。具有一定連接關(guān)系的結(jié)構(gòu)會(huì)產(chǎn)生在內(nèi)在不變的拓?fù)涮卣鳌3掷m(xù)同調(diào)可以記錄原子尺寸變化過程中,系統(tǒng)拓?fù)洳蛔兞康拈_始和結(jié)束,通過條形碼(barcode)可以進(jìn)一步將其可視化,也稱為拓?fù)渲讣y。
北京大學(xué)深圳研究生院新材料學(xué)院潘鋒課題組與美國密歇根州立大學(xué)數(shù)學(xué)系魏國衛(wèi)教授課題組合作首次將以持續(xù)同調(diào)為基礎(chǔ)的數(shù)學(xué)方法引入材料科學(xué)中,利用持久同源將高維空間中的材料結(jié)構(gòu)映射到低維拓?fù)淇臻g,從而更方便地研究結(jié)構(gòu)與性能之間的關(guān)系。團(tuán)隊(duì)將持續(xù)同調(diào)方法引入碳硼烷體系的分析,通過對這些結(jié)構(gòu)的拓?fù)渲讣y的分析,建立起基于拓?fù)洳蛔兞考捌涑志瞄L度的模型。利用拓?fù)洳蛔兞?/span>(β0, β1和β2)定量分析和預(yù)測了碳硼烷結(jié)構(gòu)以及其對應(yīng)BnHn2-的相對能量。通過利用拓?fù)洳蛔兞?/span>(β0, β1和β2)的平局長度特征,可以將該拓?fù)湫畔⑴cBnHn2- (n = 5~20)的相對能量進(jìn)行精確擬合,Pearson相關(guān)系數(shù)為0.977,而相應(yīng)的碳硼烷結(jié)構(gòu)C2Bn - 2Hn (n = 5~20)的Pearson相關(guān)系數(shù)為0.937,如圖1。該工作以令人滿意的精度證明了持續(xù)同調(diào)方法應(yīng)用于多原子體系的的可行性,提供了一種新型的團(tuán)簇結(jié)構(gòu)描述符(Chinese J. Struct. Chem. 2020, 39(6), 999-1008)。在未來的工作中,我們可以利用更有效的機(jī)器學(xué)習(xí)方法,根據(jù)持續(xù)同源得到的拓?fù)湫畔?,建立結(jié)構(gòu)與性質(zhì)之間的關(guān)系,實(shí)現(xiàn)更大原子數(shù)量的碳硼烷結(jié)構(gòu)的預(yù)測。
同時(shí),團(tuán)隊(duì)在鋰團(tuán)簇能量預(yù)測方面,除了使用拓?fù)洳蛔兞縼硖崛F(tuán)簇結(jié)構(gòu)的拓?fù)鋷缀涡畔?,對于原子間的短程作用和長程作用等數(shù)據(jù)信息,還進(jìn)一步提出了持續(xù)獨(dú)立原子對(PPI)來計(jì)算“生長”過程中每對原子(或點(diǎn))的獨(dú)立性。最初,所有的原子都是不相連的,PPI條的數(shù)目等于獨(dú)立原子對的數(shù)目。隨著生長?參數(shù)的變大,一些原子對連接起來,它們的PPI合并。我們提出的PPI條碼比β0更具信息量。如圖2所示,它可以與拓?fù)洳蛔兞恳黄鹩糜诿枋霾牧辖Y(jié)構(gòu)。隨后基于提取的拓?fù)涮卣?,?gòu)建團(tuán)簇能量預(yù)測機(jī)器學(xué)習(xí)模型。最終,僅僅利用小型團(tuán)簇結(jié)構(gòu)構(gòu)成的數(shù)據(jù)集來訓(xùn)練所得的模型即可對中型和大型團(tuán)簇形成非常高的預(yù)測精度。該模型可用于團(tuán)簇結(jié)構(gòu)的快速篩選,加快最穩(wěn)定團(tuán)簇結(jié)構(gòu)搜索的速度。相關(guān)成果發(fā)表在隸屬Nature Index的知名雜志The journal of physical chemistry letters(2020, 11, 4392)上。
圖2 基于持續(xù)同調(diào)與持續(xù)獨(dú)立原子對的鋰團(tuán)簇能量預(yù)測
在無機(jī)材料的能量預(yù)測方面,由于持續(xù)同調(diào)僅提供全局的拓?fù)浣Y(jié)構(gòu)信息,對于無機(jī)化合物包含大量不同元素和不同結(jié)構(gòu)的體系沒法直接使用。因此,團(tuán)隊(duì)提出了原子特殊的持續(xù)同調(diào)(ASPH),它考慮的是晶胞中每個(gè)原子周圍不同環(huán)境構(gòu)成的持續(xù)同調(diào),在拓?fù)洳蛔兞恐星度朐有畔ⅰ;贏SPH方法表達(dá)的結(jié)晶化合物拓?fù)涮卣骺梢詷?gòu)建晶體能量預(yù)測模型,使用拓?fù)浔磉_(dá)的結(jié)構(gòu)特征配合元素特征可以實(shí)現(xiàn)MAE僅為61 meV/atom的結(jié)果(圖3)。此外基于預(yù)測結(jié)果,團(tuán)隊(duì)還對預(yù)測偏差較大的結(jié)構(gòu)進(jìn)行了詳細(xì)的討論與分析,發(fā)現(xiàn)了異常通常存在于特殊的氧化態(tài)與畸變的結(jié)構(gòu)之中,增加了此類異常的認(rèn)識(shí)與理解。相關(guān)成果最近發(fā)表在Nature 集團(tuán)旗下的知名雜志npj Computational Materials(2021,7, 1-8)上。
圖3 結(jié)晶化合物拓?fù)涮卣骺梢詷?gòu)建晶體能量預(yù)測模型
拓?fù)鋽?shù)學(xué)是一個(gè)強(qiáng)大的工具,可以通過變化的尺度定性分析數(shù)據(jù)結(jié)構(gòu),借助機(jī)器學(xué)習(xí)方法,便可以構(gòu)造有高精度的材料預(yù)測機(jī)器學(xué)習(xí)模型用于團(tuán)簇結(jié)構(gòu)分析、團(tuán)簇結(jié)構(gòu)搜索以及晶體結(jié)構(gòu)能量預(yù)測等諸多材料結(jié)構(gòu)規(guī)律的科學(xué)研究中,有助于加速材料的發(fā)現(xiàn)與應(yīng)用。
該些工作是在潘鋒教授和魏國衛(wèi)教授的共同指導(dǎo)下,第一作者分別是北京大學(xué)深圳研究生院新材料學(xué)院研究生陳冬、陳鑫和江毅,他們與團(tuán)隊(duì)成員協(xié)作共同完成研究,該工作得到了國家材料基因組重點(diǎn)研發(fā)計(jì)劃和深圳市科技計(jì)劃項(xiàng)目的大力支持。
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com