近日,浙江大學農業(yè)與生物技術學院沈星星研究員、陳學新教授以及美國范德堡大學Antonis Rokas教授課題組聯(lián)合在Nature Communications發(fā)文闡明:系統(tǒng)發(fā)育樹存在~9% -18%的不可重復性危機。
研究結果可重復或可再現性是科學界的基石。在過去的幾年里,科學家對已發(fā)表結果可重復性的擔憂不斷增加,導致了“再現性危機”一詞的出現。系統(tǒng)發(fā)育樹是進化生物學研究的基礎。例如,系統(tǒng)發(fā)育樹通常被用來研究基因、基因組、物種的演化過程。2013年報告稱:由于缺乏數據公開化,6277 / 7539(83.3%)研究課題的系統(tǒng)發(fā)育樹是不可重復的。這一研究促使了多個公共存儲數據庫的誕生(如figshare)。?
公共數據庫提供的信息是否足夠系統(tǒng)發(fā)育樹的重復構建?此外,系統(tǒng)發(fā)育樹的構建參數、計算資源(CPU處理器型號、線程數等)均存在差異。這些差異是否會導致不可重復的系統(tǒng)發(fā)育樹?什么原因導致不可重復的系統(tǒng)發(fā)育樹? 如何規(guī)避不可重復危機?回答這一系列問題有利于提高系統(tǒng)發(fā)育樹的再現性,同時為系統(tǒng)發(fā)育學軟件開發(fā)者提供重要的指導依據。
本研究收集了15個動物、植物、真菌系統(tǒng)發(fā)育基因組學數據集(總共19414個基因比對數據)。這15個數據集包含非編碼DNA (DNA)、外顯子(DNA)、氨基酸(AA)三類數據集?;蚱骄L度約620位點,平均包含180個物種。基于19414個基因數據集,我們檢驗了常用系統(tǒng)發(fā)育樹構建軟件IQ-TREE和RAxML-NG可重復性。對每一個基因,運行兩次完全相同的參數(Run1和Run2),并比較Run1和Run2產生的系統(tǒng)發(fā)育樹是否一致(圖A)
研究結果表明:IQ-TREE和RAxML-NG分別存在81.9%和90.7%的系統(tǒng)發(fā)育樹可重復。比較IQ-TREE和RAxML-NG之間,僅20.3%系統(tǒng)發(fā)育樹可重復(圖B和C)。利用UCE、AHE等捕獲技術收集的數據存在更高比例的不可重復性??偨Y:計算資源差異(如CPU數目差異、CPU型號差異)、不同初始隨機數以及系統(tǒng)發(fā)育信號低的基因等因素更易產生不可重復的系統(tǒng)發(fā)育樹。
?
?我們如何提高系統(tǒng)發(fā)育樹的可重復性?考慮到系統(tǒng)發(fā)育基因組數據集中存在的成百上千個基因,一個更實用的方是公布每個分析的日志文件。因為日志文件包含所有關鍵參數(例如基因名、程序名、樹搜索的數量、替代模型、處理器類型、線程數量和隨機起始數)。
浙江大學農學院沈星星研究員為論文第一作者兼共同通訊作者,美國范德堡大學Antonis Rokas教授為共同通訊作者。陳學新教授對該研究給予了大力支持和悉心指導。另外,范德堡大學和威斯康星大學麥迪遜分校的李遠寧博士后、Chris Hittinger教授也參與了該研究。該研究受到中央高校基本科研業(yè)務費專項、浙江大學“百人計劃”研究員啟動資金資助、國家自然科學基金國際聯(lián)合重點研究項目(No. 31920103005)和國家自然科學基金重點項目(No. 31702035)支持。
原文鏈接:https://www.nature.com/articles/s41467-020-20005-6
(昆蟲科學研究所供稿)
版權與免責聲明:本網頁的內容由收集互聯(lián)網上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構成其他建議。僅提供交流平臺,不為其版權負責。如涉及侵權,請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com