?????? 近日,Nature系列刊物scientific reports在線發(fā)布了上海交通大學生命科學技術(shù)學院韋朝春副教授研究團隊以博士生胡智強為第一作者的文章Revealing Missing Human Protein Isoforms Based on Ab Initio Prediction, RNA-seq and Proteomics,通過從DNA序列直接預(yù)測的方法結(jié)合其他證據(jù)預(yù)測人類基因組蛋白質(zhì)。本研究成果是與澳大利亞阿德萊德大學、美國范德堡大學、上海第二軍事醫(yī)科大學以及上海生物信息技術(shù)研究中心合作完成的,項目計算得到了上海交通大學超算中心支持。
?????? 人類基因組究竟能編碼多少個蛋白質(zhì)?在人類基因組工程項目完成10多年后,這個問題似乎有些過時。盡管目前人們已經(jīng)知道能夠編碼蛋白質(zhì)的人類基因的數(shù)量是2萬多個,但是由于可變剪切機制,同一個基因可以表達成多個不同的蛋白質(zhì),這2萬多個人類基因究竟能編碼多少個蛋白質(zhì)目前仍然是個謎。
?????? 雖然各種高通量測序方法進展飛速,但是很多蛋白質(zhì)只在特定的組織、一定的發(fā)育階段或者特定條件下才表達,通過實驗的方法檢測人類所有蛋白質(zhì)在目前技術(shù)條件下幾乎不可能。然而,從人類基因組序列直接預(yù)測蛋白質(zhì)序列的方法可以避免這個缺陷。
?????? 韋朝春研究團隊開發(fā)了一個直接從基因組序列從頭預(yù)測可變剪切的方法,結(jié)合現(xiàn)有的海量基因表達數(shù)據(jù),包括轉(zhuǎn)錄組和蛋白質(zhì)組數(shù)據(jù),找到了約3萬個現(xiàn)有數(shù)據(jù)庫中沒有的蛋白質(zhì)序列。隨機抽樣并設(shè)計實驗驗證表明約85%的預(yù)測結(jié)果可以得到實驗驗證。這些蛋白質(zhì)序列使現(xiàn)有數(shù)據(jù)庫中約完整的蛋白質(zhì)序列數(shù)量增加到約9萬個。和公共數(shù)據(jù)庫中已有的蛋白質(zhì)相比,這些新發(fā)現(xiàn)的蛋白質(zhì)的表達具有更高的組織特異性,表達量相對較低,因而也更難被發(fā)現(xiàn)。根據(jù)這些結(jié)果,他們預(yù)測了人類基因組編碼的蛋白質(zhì)的數(shù)量不少于20萬個。
?????? 這一結(jié)果提高了我們對基因組復(fù)雜性的理解,為生物醫(yī)學研究的廣泛領(lǐng)域提供了更完整的人類參考基因組注釋,具有重要的理論指導(dǎo)意義和實際應(yīng)用價值。
版權(quán)與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負責。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com