2020年6月10日,國際生物信息學權威期刊Briefings in Bioinformatics(影響因子IF: 9.101)在線發(fā)表了我校生命科學學院、省部共建草原家畜生殖調控與繁育國家重點實驗室左永春教授為通訊作者,博士生鄭磊為第一作者的關于約化氨基酸序列l(wèi)ogo的最新數據分析平臺RaacLogo的科研成果,題目為“RaacLogo: a new sequence logo generator by using reduced amino acid clusters”。本研究得到國家自然科學基金(61561036, 61702290, 61861036)、內蒙古杰出青年培育基金(2017JQ04)和內蒙古青年科技英才(NJYT-18-B01)項目的資助支持。
蛋白質是生命活動主要的承擔者,生命的進化最終都體現在蛋白質功能的多樣化上。蛋白質是由20種氨基酸編碼的,相比于ATGC的DNA遺傳信息,氨基酸字母表顯示出極大地復雜性和多樣性。這就產生了一系列非常有趣的問題:生命為什么會選擇20種氨基酸作為標準字母表?更少的氨基酸能否組成或滿足一個蛋白質執(zhí)行功能的基本組成單元?我們能否用更少的氨基酸創(chuàng)造出擺脫當前遺傳法則,設計更為獨特的生命?理論上,具有相似性質、原子排列或頻率分布的天然氨基酸可以被合并,并用更小數量的約化字母表來表示編碼的氨基酸。蛋白質氨基酸約化分析是對生命進化本質的探索,同時對于蛋白質合成、拓撲結構預測,以及藥物設計等具有重要的意義。
理論上,具有相似性質、原子排列或頻率分布的天然氨基酸可以被合并,并用更小數量的約化字母表來表示編碼的氨基酸。最簡單的約化方案是以極性或者親疏水性作為標準,將20種氨基酸只約化為兩個字母。當然,這種極端的方法產生的蛋白質,一定長度的序列所能承載的信息實在太少,幾乎不可能完成復雜的生命活動。那如果是3個,5個,10個呢?另外,氨基酸字母表的大小直接決定的序列motif的復雜性和多樣性。而氨基酸序列l(wèi)ogo作為蛋白質序列保守度的可視化圖形,對研究同源蛋白質的系統(tǒng)發(fā)育和功能差異,以及蛋白質定向分子設計具有非常重要的意義。然而傳統(tǒng)的logo圖形包括了20種氨基酸字母,顯示出極大地復雜性和多樣性。由于在logo生成過程中缺少對氨基酸性質等生物學因素的考慮,往往會導致對蛋白質功能進化保守性的評估出現偏差。左永春教授課題組基于氨基酸約化的方法,建立了能夠簡化氨基酸序列復雜性的RaacLogo,使基于信息學的logo圖形具有了生物學意義,更好的反映了蛋白序列的功能保守性。RaacLogo作為一個新的簡化氨基酸字母的logo生成器,包含了40多種聚類算法和74種約化后的氨基酸字母,這些字母被提取生成673個約化的氨基酸簇(RAACs),用于簡化復雜的logo字母。當20個氨基酸按照一定的相似性聚類到更小的字母表中,使蛋白質的復雜性將大大降低一些功能保守區(qū)域將被更清晰地顯示出來,從而減少了過擬合的機會,降低了計算障礙,減少了信息冗余。
近年來,左永春教授圍繞“基于氨基酸約化的蛋白質結構和功能解析”展開了一系列研究工作和大數據平臺開發(fā),2017年,課題組構建了國際上首個氨基酸約化蛋白質序列生物大數據在線分析平臺,論文發(fā)表在生物信息學核心期刊Bioinformatics選為當年首期目錄出版論文(Bioinformatics. 33(1):122-124),該平臺引起國際同行們的廣泛關注和使用,被國際生物信息權威軟件庫OMICTOOLS收錄(收錄編號:OMICS_08205),當年給予5星推薦指數,連續(xù)兩年被ESI 1% 高被引數據庫收錄。在此基礎上,2019年,課題組構建完成了包含更全氨基酸約化字母表涉及700余種約化類型的數據庫RAACBook,并開發(fā)基于人工智能機器學習的蛋白質特征提取和功能分類預測平臺,成果發(fā)表在國際生物數據庫權威期刊Database雜志上(2019:baz131,1-12),相關軟件獲批計算機軟件著作權(2019SR0467812)。另外,課題組還解析了DNA去甲基化關鍵蛋白TET家族功能發(fā)揮的序列基礎(Briefings in Bioinformatics. 2019, 20 (5), 1826-1835)。
通訊作者簡介:左永春,教授,博士生導師,2011年畢業(yè)于內蒙古大學,獲生物物理學理學博士學位,國際Frontier期刊出版社的Topics Guest Editor,Current Gene Therapy期刊編委,國家自然科學基金評審專家,教育部學位論文通訊評審專家等。以內蒙古大學為第一(通訊)作者單位在專業(yè)領域內Briefings in bioinformatics、Bioinformatics、GigaScience等國際期刊上發(fā)表學術論文60多篇,成果受到美國藝術與科學院院士、臺灣中央研究院院士等同行專家的積極評價,被Nature和PNAS等累計引用1000多次(Google, H=18),多篇成果入選ESI 1%高被引論文,建立了草原家畜生殖調控與繁育生物大數據分析平臺。內蒙古自治區(qū)優(yōu)秀博士學位論文和杰出青年培育基金獲得者;內蒙古自治區(qū)高等學校青年科技英才,內蒙古自治區(qū)草原英才,以及新世紀321人才工程等。
論文鏈接:https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbaa096/5855392