CRISPR基因編輯與深度學習分別是當前生命科學和信息科學領域的熱點研究技術。實現(xiàn)CRISPR基因敲除的重要挑戰(zhàn)之一是設計具有高打靶活性的sgRNA,同時降低其全基因組范圍內(nèi)的脫靶,從而完成高效及特異性的基因敲除。近日,同濟大學劉琦教授課題組及其合作者首次開發(fā)了一種基于人工智能深度學習框架的向?qū)NA(sgRNA)設計的計算平臺DeepCRISPR(http://www.deepcrispr.net/)。該平臺基于深度學習模型進行一站式的sgRNA打靶活性預測及全基因組范圍類的脫靶譜(off-target profile)預測,從而幫助用戶挑選最優(yōu)化的sgRNA進行基因編輯。相關成果發(fā)表在國際著名期刊《Genome Biology》。
DeepCRISPR平臺基于深度學習模型,首次提出CRISPR系統(tǒng)的打靶活性預測和脫靶譜預測的統(tǒng)一計算框架(圖一),并且在以下四個層面整合了若干有效的計算技術進行sgRNA的優(yōu)化設計:
(1) DeepCRISPR平臺整合了來自多細胞系的打靶活性數(shù)據(jù)及多個脫靶檢測技術(GUIDE-seq、Digenome-seq、BLESS、HTGTS、IDLV)產(chǎn)生的脫靶數(shù)據(jù)。其整體架構基于卷積神經(jīng)網(wǎng)絡(CNN)進行模型訓練,同時考慮了sgRNA序列層面和表觀遺傳層面(如染色質(zhì)開放程度,甲基化等)的特征描述,利用深度學習layer-wise的表征學習(Representation Learning)能力自動學習有效的特征表示,避免人工進行sgRNA的特征工程,并且可以達到細胞系特異性的sgRNA設計。
(2) DeepCRISPR平臺首次采用多細胞系genome-wide的非標記sgRNA序列(包含表觀遺傳層面信息,共~6.8億樣本)進行自編碼式(Auto-encoder)的模型預訓練(Pre-training)。該預訓練模型從海量的無標記樣本中進行sgRNA的特征學習,一定程度上避免了在有限標記樣本下的深度學習過擬合問題。
(3) DeepCRISPR平臺首次借鑒了圖像處理領域的樣本擴增技術(Data Augmentation)進行標記sgRNA樣本的擴增(例如改變sgRNA遠離PAM端的堿基并不改變該sgRNA的活性,類比于圖像處理中改變圖像中若干像素并不改變該圖像的標簽),從而有效的擴展了標記訓練樣本的數(shù)量。
(4) DeepCRISPR平臺將Bootstrap重采樣技術應用至深度學習的mini-batch過程中,緩解了脫靶預測中的數(shù)據(jù)不平衡性(Data Imbalance),提升了脫靶預測的精度。
圖一:DeepCRISPR計算框架
通過面向基準數(shù)據(jù)的系統(tǒng)測試,DeepCRISPR超越了現(xiàn)有代表性的打靶活性預測及全基因組脫靶預測工具(如sgRNA designer、CFD score,Nature Biotechnology 2016)。DeepCRISPR底層基于Tensorflow開發(fā),目前提供網(wǎng)頁版(圖二)和Github版本,同時可對sgRNA的全基因組層面的脫靶預測結(jié)果進行可視化展示。
圖二:DeepCRISPR網(wǎng)頁版本
劉琦教授課題組以AI和機器學習計算技術為基礎,重點關注于生物醫(yī)藥大數(shù)據(jù)挖掘領域的交叉問題研究。目前主要關注于基因編輯的小RNA設計、藥物信息學及腫瘤的精準治療和免疫治療。課題組圍繞CRISPR系統(tǒng)的打靶預測和脫靶分析進行了系列工作:包括系統(tǒng)研究了CRISPR基因敲除過程中microhomology和in-frame mutation發(fā)生率之間的關系及開發(fā)了相關計算工具CAGE【Molecular Therapy-Nucleic Acids, 2016】;合作開發(fā)了包含非編碼區(qū)的sgRNA設計工具CRISPR-DO【Bioinformatics, 2016】;系統(tǒng)探討了CRISPR基因編輯系統(tǒng)中的in-silico sgRNA設計問題【Trends in Biotechnology, 2016】;對于主流的sgRNA打靶預測工具進行了基準評估【Briefings in Bioinformatics, 2017】等。本工作由同濟大學劉琦教授、電信學院黃徳雙教授、阿斯利康制藥公司及美國麻省大學醫(yī)學院馬涵慧博士等合作完成。第一作者為同濟大學博士研究生啜國暉和馬涵慧博士。本項目得到了國家科技部重點研發(fā)計劃精準醫(yī)學重大專項,慢病專項,國家自然科學基金和上海市科委的基金項目資助。
論文鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-018-1459-4
版權與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構成其他建議。僅提供交流平臺,不為其版權負責。如涉及侵權,請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com