2018年11月30日,清華大學(xué)生命科學(xué)學(xué)院李雪明研究組,電子工程系沈淵研究組和計(jì)算機(jī)系楊廣文研究組三方合作在《自然●方法》(Nature●Methods)雜志在線發(fā)表題為《一種基于粒子濾波的魯棒的冷凍電鏡三維重構(gòu)算法框架》(A particle-filter framework for robust cryoEM 3D reconstruction)的研究論文。該工作通過將電子工程應(yīng)用中的粒子濾波算法引入到冷凍電鏡三維重構(gòu)中,大幅提高了對(duì)系統(tǒng)參數(shù)的搜索能力和對(duì)系統(tǒng)誤差的容忍度;通過進(jìn)一步融合高性能計(jì)算的方法,最終實(shí)現(xiàn)了對(duì)生物大分子結(jié)構(gòu)高效高精度的三維重構(gòu)。同期開發(fā)的THUNDER冷凍電鏡三維重構(gòu)軟件系統(tǒng)集成了這些新算法和新特性,為未來冷凍電鏡海量圖像數(shù)據(jù)的實(shí)時(shí)分析,以及大規(guī)模的自動(dòng)化應(yīng)用提供了一個(gè)可靠的算法和軟件基礎(chǔ);同時(shí),也為解析接近原子分辨率的生物結(jié)構(gòu)提供了一套魯棒、快速的解決方案,顯著降低了對(duì)用戶經(jīng)驗(yàn)的要求,益于冷凍電鏡技術(shù)的廣泛普及,助力在原子尺度上對(duì)生命活動(dòng)進(jìn)行觀察。
蛋白質(zhì)是生命體的最主要組成元素,作為一種生物大分子機(jī)器,蛋白質(zhì)功能的實(shí)現(xiàn)高度依賴于其復(fù)雜的三維原子結(jié)構(gòu)。了解蛋白質(zhì)的結(jié)構(gòu)及其與功能的關(guān)系對(duì)探索生命的基本原理,理解疾病的分子機(jī)制以及藥物的研發(fā)具有重要的意義。冷凍電子顯微鏡,簡稱冷凍電鏡,使用電子束作為光源,是一種能在原子分辨率水平上觀察并測定蛋白質(zhì)分子結(jié)構(gòu)的有力工具。伴隨著最近幾年的技術(shù)突破,冷凍電鏡三維重構(gòu)技術(shù)成為測定蛋白質(zhì)及其復(fù)合物結(jié)構(gòu)的關(guān)鍵技術(shù)。冷凍電鏡三維重構(gòu)的基本方法是,首先利用冷凍電鏡對(duì)冷凍于液氮溫度的生物大分子顆粒進(jìn)行成像,以獲得數(shù)萬到數(shù)百萬張生物大分子照片,然后通過一定的算法來整合這些圖像,計(jì)算出生物大分子的三維結(jié)構(gòu)。這其中三維重構(gòu)算法是核心內(nèi)容,用于測定出每一張照片的諸多參數(shù),例如空間取向,然后才能將二維的照片整合重構(gòu)出三維的結(jié)構(gòu)。因?yàn)檎掌臄?shù)量巨大,且圖像信號(hào)極其微弱,如何精確計(jì)算測定每張照片的參數(shù),以達(dá)到超過0.4甚至0.2納米的分辨率,一直以來都是冷凍電鏡技術(shù)研究的重點(diǎn)和難點(diǎn)。
圖1. 基于粒子濾波的三維重構(gòu)算法示意圖。a)從初始模型開始到最終結(jié)構(gòu)的計(jì)算收斂過程,其中的彩色圖表示在旋轉(zhuǎn)空間中參數(shù)搜索的似然度分布圖。b)基于蒙特卡洛算法的隨機(jī)參數(shù)搜索和重點(diǎn)采樣。經(jīng)過多輪的迭代搜索,分散于整個(gè)參數(shù)空間中的采樣點(diǎn)收斂于最可能的參數(shù)附近,采樣點(diǎn)的分布反映了所測定參數(shù)的概率密度分布。
為了獲得一個(gè)更有效的算法和計(jì)算系統(tǒng)以滿足未來高分辨率和大規(guī)模應(yīng)用的需求,李雪明研究組聯(lián)合電子系沈淵和計(jì)算機(jī)系楊廣文研究組,利用清華大學(xué)生物學(xué)科和信息學(xué)科交叉的優(yōu)勢,將電子工程領(lǐng)域的粒子濾波算法引入到冷凍電鏡的圖像重構(gòu)參數(shù)搜索中去,發(fā)展出一套比現(xiàn)有算法更完善、更有效的貝葉斯統(tǒng)計(jì)推斷算法。這套新算法對(duì)高維參數(shù)的搜索具有更好的魯棒性,可以自適應(yīng)地進(jìn)行參數(shù)的自動(dòng)調(diào)整,以及通過引入一套新的權(quán)重機(jī)制大幅提高了對(duì)系統(tǒng)誤差的容忍度。這些優(yōu)勢的整合,使整個(gè)系統(tǒng)具有很好的魯棒性,更適用于未來自動(dòng)化的運(yùn)行工作模式。同時(shí),在算法的實(shí)現(xiàn)過程中,深度融合了大規(guī)模并行計(jì)算的思路和方法,從而使整個(gè)系統(tǒng)具有極高的運(yùn)算效率,和近乎理想的并行計(jì)算性能。未來該系統(tǒng)將能夠高效運(yùn)行于小到一個(gè)工作站,大到“太湖之光”這樣的超大規(guī)模計(jì)算系統(tǒng),適應(yīng)生命科學(xué)研究和藥物設(shè)計(jì)的大量結(jié)構(gòu)測定需求。
圖2. THUNDER的計(jì)算結(jié)果對(duì)比。三個(gè)測試數(shù)據(jù)集,CNG,Proteasome和β-galactosidase,被用來進(jìn)行測試。分別選取包含很多壞照片的臟數(shù)據(jù)集(dirty)和使用其他方法篩選掉壞照片的干凈數(shù)據(jù)集(clean)進(jìn)行計(jì)算,臟數(shù)據(jù)集給出了更好的結(jié)果,說明新算法對(duì)壞照片高度容忍(Grading),并且能充分利用好照片中的信息。另外,通過對(duì)成像的離焦參數(shù)進(jìn)行精修,也能大幅提高分辨率,說明了新算法對(duì)高維參數(shù)搜索的魯棒性。a)和b)分別給出了分辨率的測量曲線,c)是通過對(duì)幾個(gè)特定的氨基酸密度來對(duì)比不同的計(jì)算結(jié)果,其中EMDB表示的是之前發(fā)表的結(jié)構(gòu)(第一行),現(xiàn)有的計(jì)算結(jié)果分辨率顯著提高(第三行)。
這項(xiàng)工作是三個(gè)不同學(xué)科研究組交叉研究的階段性成果,團(tuán)隊(duì)正在利用新型的統(tǒng)計(jì)推斷和機(jī)器學(xué)習(xí)算法將這一工作擴(kuò)展到對(duì)細(xì)胞或者細(xì)胞器結(jié)構(gòu)的原子分辨率三維重構(gòu)上去。未來的冷凍電鏡技術(shù)將使人們不必再借助于復(fù)雜的生物化學(xué)手段來提取蛋白質(zhì),而是利用冷凍電鏡直接在細(xì)胞中對(duì)包括蛋白質(zhì)在內(nèi)的生物大分子的原子結(jié)構(gòu)和動(dòng)態(tài)變化進(jìn)行觀察和分析,探索生命活動(dòng)的本質(zhì)原理,設(shè)計(jì)能夠治愈疾病的藥物,造福人類健康。
清華大學(xué)生命學(xué)院李雪明研究員,電子系沈淵副教授和計(jì)算機(jī)系楊廣文教授為該項(xiàng)研究的共同通訊作者,生命學(xué)院博士生胡名旭,計(jì)算機(jī)系博士生余洪坤和電子系博士生顧凱為共同第一作者,其他共同作者王釗,阮華斌,王鯤鵬,任思遠(yuǎn),李冰,甘霖和徐世真也為此項(xiàng)工作做出了不可或缺的重要貢獻(xiàn)。該研究得到了科技部重點(diǎn)研發(fā)計(jì)劃,國家自然科學(xué)基金,清華大學(xué)結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心,清華北大生命科學(xué)聯(lián)合中心,英特爾并行計(jì)算中心項(xiàng)目的資金支持。國家超算無錫中心和清華大學(xué)蛋白質(zhì)科學(xué)基礎(chǔ)設(shè)施生物計(jì)算平臺(tái)為本項(xiàng)目提供了計(jì)算設(shè)施支持。
文章地址: http://dx.doi.org/10.1038/s41592-018-0223-8
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請(qǐng)聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com