隨著數(shù)據(jù)挖掘技術(shù)的日益成熟,將其運(yùn)用于材料科學(xué)研究已逐漸成為可能。這導(dǎo)致了材料信息學(xué)這一新興領(lǐng)域的出現(xiàn)。經(jīng)過長時(shí)間的發(fā)展,大量的材料學(xué)術(shù)文獻(xiàn)中積累了豐富的科學(xué)成果,以文本形式散布在文獻(xiàn)中的科學(xué)知識一般仍由研究人員手動(dòng)收集和分析,這通常十分耗時(shí)且難以保證信息的完整度。如果將文獻(xiàn)中的材料科學(xué)信息表示為結(jié)構(gòu)化的知識,再結(jié)合知識關(guān)聯(lián)、融合、推理等方法,構(gòu)建材料知識圖譜,即可使研究人員準(zhǔn)確而又高效地獲取信息,對過往研究進(jìn)行脈絡(luò)梳理,對有潛力的材料進(jìn)行剖析。材料知識圖譜作為高效的知識管理載體,能夠大規(guī)模地從海量材料科學(xué)文獻(xiàn)中抽取信息,建立實(shí)體之間的對應(yīng)關(guān)系,有助于闡明實(shí)體之間的內(nèi)在關(guān)聯(lián),這將極大地促進(jìn)我們對科學(xué)知識發(fā)展的宏觀及全面理解。
基于此,北京大學(xué)深圳研究生院新材料學(xué)院潘鋒教授課題組結(jié)合機(jī)器學(xué)習(xí)和依賴匹配算法發(fā)展了一套高精度且高效的同名消歧以及信息搜索的框架,在材料科學(xué)領(lǐng)域中建立了主體(作者)與客體(材料)之間的對應(yīng)關(guān)系(圖1),構(gòu)建了名為MatKG的材料知識圖譜,并對鋰離子電池正極材料LiFePO4進(jìn)行自動(dòng)化分析,生成其發(fā)展里程碑,追蹤其研究趨勢。知識圖譜在材料科學(xué)中的應(yīng)用將為材料研究領(lǐng)域提供一個(gè)高效的信息處理平臺,MatKG可以提供自動(dòng)化的材料科學(xué)領(lǐng)域的信息獲取方式,有助于融合和完善各個(gè)領(lǐng)域中的材料科學(xué)知識。相關(guān)成果近日發(fā)表在國際知名學(xué)術(shù)雜志《先進(jìn)能源材料》(Advanced Energy Materials, DOI: 10.1002/aenm.202003580,影響因子25)上。
?
圖1. 材料知識圖譜的架構(gòu)
?
知識圖譜是由相互連接的實(shí)體以及相關(guān)的屬性組成的,高精度地實(shí)體消歧(如何準(zhǔn)確確定文章的作者)是準(zhǔn)確構(gòu)建知識圖譜的前提,判斷知識庫中的同名實(shí)體(同名同姓是否是同一個(gè)人)是否代表不同的含義以及知識庫中是否存在其他命名實(shí)體與之表示相同的含義是一個(gè)重要的任務(wù)。在材料知識圖譜中,作者的歧義化是知識庫構(gòu)建的主要障礙之一,同名以及相似姓名變體的作者經(jīng)常會被混淆,常造成信息的搜索或關(guān)聯(lián)錯(cuò)誤。因此,基于作者信息以及文本信息,團(tuán)隊(duì)結(jié)合機(jī)器學(xué)習(xí)和依賴匹配算法對材料知識圖譜中的主體(作者)進(jìn)行高精度消歧,并引入剪枝策略以解決在面對龐大且復(fù)雜的數(shù)據(jù)時(shí)查找效率較低的問題,實(shí)現(xiàn)高效信息匹配和搜索,從而構(gòu)建了MatKG的框架(圖2)。
?
圖2. MatKG的構(gòu)建流程圖
?
MatKG可以為不同領(lǐng)域的研究人員提供快速而客觀的學(xué)術(shù)界趨勢跟蹤,研究團(tuán)隊(duì)以諾貝爾獎(jiǎng)獲得者Goodenough教授鋰電池正極材料LiFePO4為例,利用建立好的知識圖譜框架,對其進(jìn)行自動(dòng)化分析,關(guān)聯(lián)相關(guān)學(xué)者及其研究信息,建立用于鋰離子電池的LiFePO4的發(fā)展里程碑圖(圖3),發(fā)現(xiàn)其發(fā)展的重要?dú)v程。
?
圖3. 用于鋰離子電池的LiFePO4的發(fā)展里程碑圖
?
該工作結(jié)合自然語言處理、機(jī)器學(xué)習(xí)等方法,系統(tǒng)地整理了科學(xué)出版物中的知識,從而可以有效提高科研人員精準(zhǔn)獲取信息的效率,有助于探索潛在的知識聯(lián)系以及有效處理復(fù)雜多樣的關(guān)聯(lián)分析,并發(fā)現(xiàn)隱藏在數(shù)據(jù)和文本中的有價(jià)值的信息。該研究成果為材料科學(xué)研究帶來了新的見解和啟發(fā)。研究團(tuán)隊(duì)在未來將結(jié)合材料的更多特性信息構(gòu)建基于MatKG的材料推理和預(yù)測系統(tǒng),旨在為材料開發(fā)和設(shè)計(jì)開辟新的范式。
該工作是在潘鋒教授和李舜寧副研究員的共同指導(dǎo)下,由第一作者北京大學(xué)深圳研究生院新材料學(xué)院碩士研究生聶志偉及相關(guān)人員一起完成,該工作得到了國家材料基因組重點(diǎn)研發(fā)計(jì)劃、深圳市科技計(jì)劃和化學(xué)與精細(xì)化工廣東省實(shí)驗(yàn)室科研啟動(dòng)項(xiàng)目的大力支持。
?
文章鏈接:https://onlinelibrary.wiley.com/doi/10.1002/aenm.202003580
?
?
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com