近日,國際權(quán)威期刊《Genome Biology》在線發(fā)表了生命科學(xué)技術(shù)學(xué)院王濤團(tuán)隊(duì)的研究成果“mbDenoise: microbiome data denoising using zero-inflated probabilistic principal components analysis”。該研究提出基于零膨脹概率主成分分析的統(tǒng)計(jì)模型和變分近似算法對微生物組數(shù)據(jù)進(jìn)行去噪,對揭示微生物組數(shù)據(jù)潛在的生物學(xué)信號有重要意義。生命科學(xué)技術(shù)學(xué)院博士生曾燕燕為第一作者,生命科學(xué)技術(shù)學(xué)院王濤教授和美國耶魯大學(xué)趙宏宇教授為通訊作者,生命科學(xué)技術(shù)學(xué)院李婧教授和韋朝春教授為合作者。
微生物組學(xué)是綜合研究群居在某個(gè)生態(tài)系統(tǒng)的微生物群落,依托自身豐富的遺傳及代謝功能,與特定環(huán)境中的其他生命體或環(huán)境因子發(fā)生互利或相克作用的新興前沿學(xué)科。微生物組研究已積累了海量的測序數(shù)據(jù),正面臨著從數(shù)量到質(zhì)量、從結(jié)構(gòu)到功能研究的關(guān)鍵轉(zhuǎn)變過程。但是,微生物組數(shù)據(jù)分析仍然面臨許多技術(shù)挑戰(zhàn)。主要挑戰(zhàn)之一是物種或基因特征表包含大量的零,其中一些是生物零,而另外一些是非生物零。此外,微生物組數(shù)據(jù)還存在測序深度不均勻、過度離散和數(shù)據(jù)冗余等問題。這些干擾因素會引入大量噪聲,如果不加以解決,會直接影響下游數(shù)據(jù)分析的準(zhǔn)確性。
為了解決微生物組數(shù)據(jù)中的干擾因素并將真實(shí)的生物信號提取出來,該研究開發(fā)了mbDenoise,一種用于去除微生物組數(shù)據(jù)噪聲的潛變量建模方法。該方法基于一個(gè)概率生成模型,在樣本和物種或基因之間借用信息,從而實(shí)現(xiàn)生物信號與技術(shù)噪聲分離(圖1)。物種或基因豐度數(shù)據(jù)由零膨脹負(fù)二項(xiàng)模型生成,用于克服數(shù)據(jù)的過度離散和稀疏性問題,并區(qū)分生物零和非生物零。在此基礎(chǔ)上,通過在負(fù)二項(xiàng)分布引入樣本特異性效應(yīng),用于減輕測序深度差異導(dǎo)致的技術(shù)偏差。進(jìn)一步地,假設(shè)生物信號對應(yīng)嵌入高維特征空間的低維潛在表示,不僅刻畫了微生物組數(shù)據(jù)的冗余性,而且克服了高維度和特征之間相互關(guān)系復(fù)雜的問題。該研究將上述生成模型稱為零膨脹概率主成分分析(ZIPPCA)。mbDenoise通過變分近似算法擬合該模型,然后利用后驗(yàn)均值恢復(fù)真實(shí)豐度矩陣,實(shí)現(xiàn)數(shù)據(jù)去噪目標(biāo)。
該研究使用大量模擬實(shí)驗(yàn)和真實(shí)數(shù)據(jù)廣泛評估了mbDenoise的性能。整體來說,mbDenoise在參數(shù)估計(jì)、潛變量預(yù)測以及微生物群落組成估計(jì)方面具有較高的準(zhǔn)確性。同時(shí),在多樣性分析和差異豐度分析等下游分析中,mbDenoise與其他方法相比表現(xiàn)更為優(yōu)越。該研究提供的R軟件包可在https://github.com/YanyZeng/mbDenoise獲取。
圖1.mbDenoise及其噪聲模型的概述
a.mbDenoise區(qū)分了生物零和非生物零,并假設(shè)生物信號對應(yīng)嵌入高維特征空間的低維潛在表示,從而體現(xiàn)微生物組數(shù)據(jù)的冗余性。該方法基于零膨脹概率主成分分析(ZIPPCA)模型,考慮了微生物群落物種或基因豐度數(shù)據(jù)的成分性、稀疏性和過度離散等特征。b.假設(shè)輸入數(shù)據(jù)(即豐度矩陣或特征表)是來自ZIPPCA模型的樣本。mbDenoise通過變分近似算法擬合該模型,并將潛在信號矩陣的后驗(yàn)均值估計(jì)作為去噪輸出,可以用于多個(gè)下游分析任務(wù)。
上海交通大學(xué)王濤團(tuán)隊(duì)研究方向?yàn)樯锝y(tǒng)計(jì)和高維數(shù)據(jù)統(tǒng)計(jì)推斷。近5年來,發(fā)表微生物組數(shù)據(jù)挖掘與統(tǒng)計(jì)分析方法學(xué)論文10余篇,包括Journal of the American Statistical Association (2022, 2017), Annals of Applied Statistics (2017), Biometrics (2020, 2019, 2017), Briefings in Bioinformatics (2022), Bioinformatics (2022, 2021)。主要成果涉及微生物組數(shù)據(jù)預(yù)處理、數(shù)據(jù)降維與可視化、多元統(tǒng)計(jì)建模與分析、關(guān)聯(lián)分析、整合進(jìn)化樹結(jié)構(gòu)的預(yù)測建模與分析等。
以上工作得到國家自然科學(xué)基金面上項(xiàng)目、上海市市級科技重大專項(xiàng),以及上海交通大學(xué)多學(xué)科交叉研究基金和Neil Shen醫(yī)學(xué)研究基金的資助。
論文鏈接:https://doi.org/10.1186/s13059-022-02657-3
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com