近日,上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院微生物代謝國家重點實驗室在生物信息學(xué)頂級刊物《Briefings in Bioinformatics》(IF:11.622)上發(fā)表題為“T4SEfinder: a bioinformatics tool for genome-scale prediction of bacterial type IV secreted effectors using pre-trained protein language model”的研究論文。該文將人工智能方法應(yīng)用于細菌IV型分泌系統(tǒng)效應(yīng)蛋白預(yù)測的場景,提供了一款新的、適用于細菌全基因組規(guī)模的預(yù)測軟件。生命科學(xué)技術(shù)學(xué)院碩士生張昱朦和張陽明為該論文的并列第一作者,生命科學(xué)技術(shù)學(xué)院歐竑宇教授和澳大利亞莫納什大學(xué)生物醫(yī)學(xué)發(fā)現(xiàn)研究所宋江寧副教授為該論文的共同通訊作者。
細菌IV型分泌系統(tǒng)分泌系統(tǒng)(type IV secretion system, T4SS)是由多個蛋白組件構(gòu)成的跨膜裝置,不僅能夠介導(dǎo)DNA接合轉(zhuǎn)移,還能將效應(yīng)蛋白精準轉(zhuǎn)運到真核或原核細胞中。IV型分泌系統(tǒng)效應(yīng)蛋白(T4SE)能夠影響真核細胞的基因表達和信號轉(zhuǎn)導(dǎo),在病原細菌致病過程中起到重要作用。前期工作中,歐竑宇研究組構(gòu)建了T4SS開放數(shù)據(jù)庫SecReT4,通過文本挖掘和人工校正,系統(tǒng)地收錄了實驗驗證的IV型分泌系統(tǒng)基因簇和效應(yīng)蛋白等高質(zhì)量數(shù)據(jù)(Bi, et al.,?Nucleic Acids Research, 2013)。預(yù)測效應(yīng)蛋白最簡便的方法是與SecReT4收錄的T4SEs進行序列比對;而人工智能方法則有可能發(fā)現(xiàn)與已知T4SE序列相似性低的新效應(yīng)蛋白。近期,卷積神經(jīng)網(wǎng)絡(luò)(CNN)等多種機器學(xué)習(xí)方法開始應(yīng)用于T4SE和non-T4SE的分類問題,然而它們的預(yù)測精度和運行速度仍有待提高。
該論文將蛋白序列預(yù)訓(xùn)練語言模型(pre-trained protein language model)TAPEBert應(yīng)用到T4SE分類任務(wù)中,開發(fā)了快速準確的T4SE預(yù)測軟件T4SEfinder。首先,通過更新SecReT4數(shù)據(jù)庫,T4SEfinder的訓(xùn)練集包含了來自21種細菌的518個經(jīng)實驗驗證的T4SEs。其次,通過綜合評估多種機器學(xué)習(xí)模型對T4SE的預(yù)測性能后,T4SEfinder采用了基于BERT的蛋白序列預(yù)訓(xùn)練方法TAPE(Task Assessing Protein Embeddings)以及多層感知機分類器(multi-layer perceptron,MLP)來搭建模型TAPEBert_MLP(圖1);對于五折交叉驗證和獨立測試數(shù)據(jù)集,TAPEBert_MLP模型的預(yù)測準確率略優(yōu)于常用的基于PSSM(位置特異性打分矩陣)和CNN的PSSM_CNN模型。最后,部署在一臺RTX 2080 SUPER?GPU服務(wù)器上的T4SEfinder能夠在3分鐘內(nèi)完成5000條蛋白序列中T4SE和non-T4SE的分類,速度比PSSM_CNN方法快五十多倍。因此,T4SEfinder適用于細菌全基因組規(guī)模的T4SE識別問題,可能有助于實驗發(fā)現(xiàn)病原菌的新效應(yīng)蛋白。
圖1. 細菌IV型分泌系統(tǒng)效應(yīng)蛋白預(yù)測軟件T4SEfinder的模型架構(gòu)。TAPEBert_MLP主體結(jié)構(gòu)由蛋白序列預(yù)訓(xùn)練語言模型(TAPEBert)和多層感知機分類器(MLP)組成
?
論文鏈接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab420/6397152?login=true
版權(quán)與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負責。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com