2020年06月09日 瀏覽次數(shù): 0
? ? ? 近日,清華大學交叉信息院曾堅陽研究組成功開發(fā)了從大規(guī)模科學文獻中提取生物醫(yī)學實體關(guān)系的深度學習模型,相關(guān)研究成果《A novel machine learning framework for automated biomedical relation extraction from large-scale literature repositories》于6月8日在《Nature Machine Intelligence》上在線發(fā)表。
? ? ? ?理解藥物、靶點、病毒、副作用等等生物醫(yī)學實體之間的相互作用規(guī)律,是生物醫(yī)學研究者們長期以來致力于探索和研究的問題,關(guān)于這些作用規(guī)律的研究成果廣泛分布在超過3千萬篇的科研文獻當中,且文獻的數(shù)量還在不斷增加。目前,大多數(shù)知名的生物醫(yī)學數(shù)據(jù)庫,例如DrugBank、CTD、SIDER和BioGRID,都是由人類科學家花費大量的時間和精力從科學文獻中整理而來的。雖然深度學習技術(shù)可以被用來加速這一過程,但在生物醫(yī)學這種專業(yè)性領(lǐng)域,大規(guī)模的訓練數(shù)據(jù)卻并非能夠輕易得到。為了解決這一問題,來自清華大學的曾堅陽研究團隊采用了一種基于遠監(jiān)督的深度學習策略,使得模型能夠在不依賴于人工標注數(shù)據(jù)的情況下應用到各種生物醫(yī)學關(guān)系抽取場景當中。此外,作者所提出的集成了隱式句法樹學習和注意力機制的模型,在多項生物醫(yī)學關(guān)系抽取任務當中,都取得了領(lǐng)先的實驗結(jié)果。這項研究成果表明,這種新型的機器學習框架能夠為生物醫(yī)學關(guān)系發(fā)現(xiàn)提供有力的幫助。目前,該工作已被應用到一項旨在從已有的老藥中發(fā)現(xiàn)治療COVID-19的潛在藥物的工作當中,相關(guān)的研究成果已發(fā)布在生物預印本網(wǎng)站bioRxiv上。(https://www.biorxiv.org/content/10.1101/2020.03.11.986836v1)。
? ? ? ?目前,曾堅陽研究組所提出的生物醫(yī)學關(guān)系自動抽取框架已成功應用到多個生物醫(yī)學場景當中,包括:
? ? ? 1.? 通過抽取出的提示性信息指導了若干濕實驗驗證,從而確認了新的藥物-靶點作用關(guān)系。
? ? ? 2.? 在一項針對新冠肺炎的老藥新用研發(fā)任務中,該關(guān)系抽取模型被應用到一個回顧性研究當中,即通過查找文獻支持來驗證針對SARS或MERS的老藥新用策略的可行性,從而間接證明該老藥新用策略針對COVID-19的有效性。
? ? ? 3.? ?針對更多的生物實體間的作用關(guān)系抽取,如病毒-宿主、藥物-副作用間的關(guān)系抽取,該框架已在初步實驗中驗證了其有效性。
圖:生物醫(yī)學實體關(guān)系抽取的流程圖
?
? ? ? ?該論文通訊作者為清華大學交叉信息院曾堅陽副教授和趙誕助理研究員,第一作者為清華大學交叉信息研究院碩士生洪禮翔。該研究由國家自然科學基金、南京圖靈人工智能研究院和中關(guān)村海華前沿信息技術(shù)研究院支持。
論文原文鏈接:https://www.nature.com/articles/s42256-020-0189-y
版權(quán)與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負責。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com