近日,上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院生物信息學(xué)與生物統(tǒng)計(jì)學(xué)系、上海交大-耶魯生物統(tǒng)計(jì)與數(shù)據(jù)科學(xué)聯(lián)合中心團(tuán)隊(duì)在《Briefings in Bioinformatics》(IF: 11.622)上發(fā)表題為“GESLM algorithm for detecting causal SNPs in GWAS with multiple phenotypes”的全基因組關(guān)聯(lián)分析算法論著。上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院在讀三年級(jí)本科生呂瑞祺為第一作者,上海交通大學(xué)韋朝春教授和張?jiān)栏毖芯繂T為共同通訊作者,生命科學(xué)技術(shù)學(xué)院生物信息學(xué)與生物統(tǒng)計(jì)學(xué)系為該文章第一通訊單位,生命科學(xué)技術(shù)學(xué)院四年級(jí)本科生孫健樂(lè)、三年級(jí)本科生徐棟和蔣千雪為共同作者。該研究主要基于第一作者作為上海交通大學(xué)2020年 iGEM軟件隊(duì)(SJTU-software)隊(duì)長(zhǎng)期間的工作,所有共同作者均為本科生。本研究開(kāi)發(fā)了一個(gè)全基因組關(guān)聯(lián)分析的兩階段全局搜索算法,通過(guò)貪婪等價(jià)搜索(Greedy Equivalence Search, GES)和基于約束的局部修改(Fast Causal Inference+, FCI+),以實(shí)現(xiàn)對(duì)多表型相關(guān)的單核苷酸多態(tài)性(single-nucleotide polymorphisms, SNPs)的有向無(wú)環(huán)圖的全局搜索。
隨著全基因組關(guān)聯(lián)分析的發(fā)展,如何從海量數(shù)據(jù)中獲取有效信息已成為人們普遍關(guān)注的問(wèn)題,而傳統(tǒng)的方法還不能完全解決諸如檢測(cè)上位性這樣的問(wèn)題。以往的上位性研究主要集中于單一表型的局部信息,而在本文中,我們開(kāi)發(fā)了一個(gè)兩階段全局搜索算法以實(shí)現(xiàn)對(duì)有向無(wú)環(huán)圖的全局搜索,從而在病例對(duì)照設(shè)計(jì)中識(shí)別與多個(gè)表型的全基因組上位性交互作用。GESLM結(jié)合了基于評(píng)分的方法和基于約束的方法來(lái)學(xué)習(xí)與表型相關(guān)的貝葉斯網(wǎng)絡(luò),在探索同時(shí)存在表型的遺傳關(guān)聯(lián)和基因交互作用的復(fù)雜結(jié)構(gòu)方面具有較高的穩(wěn)定性。
在正負(fù)樣本平衡和非平衡的病例對(duì)照數(shù)據(jù)集上檢測(cè)多個(gè)表型的上位性交互作用方面,GESLM在提高識(shí)別效率和降低誤報(bào)率方面具有較高的性能,在準(zhǔn)確性和時(shí)間復(fù)雜度之間取得了平衡,并用圖而非樹(shù)或者集合的形式呈現(xiàn)搜索結(jié)果,從而提供了更多的潛在信息。在模擬實(shí)驗(yàn)結(jié)果表明,與其他常見(jiàn)的基因組關(guān)聯(lián)檢測(cè)算法相比,GESLM提高了準(zhǔn)確率和效率,尤其是在正負(fù)樣本不平衡的病例對(duì)照研究中。在英國(guó)生物庫(kù)(UK Biobank)數(shù)據(jù)集上的應(yīng)用表明,GESLM算法在處理具有多個(gè)表型的全基因組關(guān)聯(lián)數(shù)據(jù)時(shí)表現(xiàn)較好。
?
本研究獲得國(guó)家自然科學(xué)基金(11901387)、上海市哲學(xué)社會(huì)科學(xué)規(guī)劃項(xiàng)目(2018EJB006)的資助。
文章鏈接:
版權(quán)與免責(zé)聲明:本網(wǎng)頁(yè)的內(nèi)容由收集互聯(lián)網(wǎng)上公開(kāi)發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請(qǐng)聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com