同濟(jì)大學(xué)生物信息系劉琦教授課題組近日成功開發(fā)了基于人工智能主題模型(Topic Modeling)的單細(xì)胞CRISPR篩選數(shù)據(jù)的分析方法。相關(guān)研究論文《Model-based Understanding of Single-cell CRISPR screening》于5月20日在《自然·通訊》(Nature Communication)雜志在線發(fā)表【1】。
圖1:基于主題模型的單細(xì)胞CRISPR篩選數(shù)據(jù)的分析流程圖
CRISPR篩選(CRISPR screening)是揭示基因功能以及進(jìn)行基因篩選的一項(xiàng)有效的高通量實(shí)驗(yàn)技術(shù)。近來,面向單細(xì)胞的CRISPR篩選技術(shù)(被稱為Perturb-Seq, CRISP-seq和CROP-seq等)通過結(jié)合傳統(tǒng)CRISPR篩選技術(shù)和單細(xì)胞測(cè)序技術(shù)的各自優(yōu)點(diǎn),使得研究者能夠在單細(xì)胞水平上實(shí)施大規(guī)模的基因擾動(dòng),從而在更加精細(xì)準(zhǔn)確的尺度下對(duì)基因擾動(dòng)進(jìn)行檢測(cè)和評(píng)估,適合針對(duì)于高異質(zhì)性的細(xì)胞類型(如腫瘤細(xì)胞,免疫細(xì)胞等)進(jìn)行大規(guī)模的基因功能研究和靶點(diǎn)篩選。伴隨這一技術(shù)的產(chǎn)生, 開發(fā)面向該數(shù)據(jù)類型的數(shù)據(jù)建模方法對(duì)于闡明復(fù)雜疾病的發(fā)生發(fā)展機(jī)制、有效進(jìn)行藥物靶點(diǎn)篩選等具有重要的研究意義。然而,該技術(shù)數(shù)據(jù)分析具有若干挑戰(zhàn):1)單細(xì)胞測(cè)序技術(shù)和CRISPR篩選技術(shù)各自存在巨大的噪音,二者結(jié)合所產(chǎn)生的單細(xì)胞CRISPR篩選技術(shù)使得數(shù)據(jù)本身的噪音加劇,迫切需要開發(fā)對(duì)噪音魯棒的數(shù)據(jù)分析方法;2) 面向單細(xì)胞CRSIPR篩選,如何設(shè)計(jì)有效的算法定量衡量sgRNA的敲除(knockout)/敲降(knockdown)的效率以及評(píng)估其潛在的脫靶(Off-target)效應(yīng)?3)在單細(xì)胞層面,如何定量分析和評(píng)估擾動(dòng)基因?qū)?xì)胞表型的影響以及兩兩擾動(dòng)之間的相互關(guān)系?4)如何將擾動(dòng)基因?qū)?xì)胞的影響進(jìn)行直觀有效的可視化展示?
針對(duì)上述單細(xì)胞CRISPR篩選數(shù)據(jù)分析中存在的問題,劉琦教授課題組提出了一種基于人工智能主題模型(Topic Modeling)的計(jì)算框架MUSIC(Model-based Understanding of SIngle cell CRISPR screening), 用以有效地對(duì)單細(xì)胞CRISPR篩選數(shù)據(jù)進(jìn)行分析。MUSIC將單細(xì)胞CRISPR篩選數(shù)據(jù)分析類比于自然語言處理中的大規(guī)模文本處理,通過主題模型對(duì)數(shù)據(jù)本身所蘊(yùn)含的隱變量(Latent variable)分布情況進(jìn)行推斷(Inference),用以進(jìn)一步揭示該類數(shù)據(jù)本身所體現(xiàn)出來的生物學(xué)意義。其數(shù)據(jù)建模過程包含三個(gè)步驟:1)數(shù)據(jù)預(yù)處理。除考慮單細(xì)胞測(cè)序過程中普遍存在的噪音以及相應(yīng)的預(yù)處理方法之外,MUSIC根據(jù)單細(xì)胞CRISPR篩選數(shù)據(jù)的特性設(shè)計(jì)了若干有效的數(shù)據(jù)預(yù)處理步驟,例如考慮sgRNA的敲除/敲入效率,最小干擾細(xì)胞數(shù)量等來進(jìn)行噪音細(xì)胞樣本的有效過濾;2)模型建立。運(yùn)用主題模型對(duì)單細(xì)胞CRISPR篩選數(shù)據(jù)進(jìn)行建模,獲得擾動(dòng)基因?qū)?xì)胞表型影響的主題分布,該主題分布可以用于對(duì)基因擾動(dòng)所產(chǎn)生的細(xì)胞表型影響進(jìn)行定量刻畫; 3)基于主題模型定量和精準(zhǔn)的刻畫基因擾動(dòng)后對(duì)細(xì)胞表型所產(chǎn)生的影響,并基于該影響對(duì)擾動(dòng)基因進(jìn)行功能排序,方便大規(guī)模的基因靶點(diǎn)篩選及基因功能注釋等。MUSIC計(jì)算平臺(tái)基于R語言開發(fā),提供Docker版本方便用戶進(jìn)行快速有效的安裝、部署以及使用,并在大規(guī)模的實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行了系統(tǒng)的比較和測(cè)試。值得一提的是,近日(4月8日)發(fā)表在《自然·方法》(Nature Methods)上的一項(xiàng)工作開發(fā)cisTopic方法進(jìn)行單細(xì)胞ATAC-seq數(shù)據(jù)分析,其核心算法同樣基于主題模型,進(jìn)一步體現(xiàn)了利用人工智能的隱變量模型對(duì)單細(xì)胞測(cè)序數(shù)據(jù)進(jìn)行分析的優(yōu)勢(shì)【2】。
劉琦教授課題組近年來一直致力基于人工智能機(jī)器學(xué)習(xí)方法進(jìn)行CRISPR基因編輯系統(tǒng)的優(yōu)化設(shè)計(jì)研究。2018年,劉琦教授課題組基于深度學(xué)習(xí)方法,開發(fā)了CRISPR基因編輯系統(tǒng)的優(yōu)化設(shè)計(jì)軟件平臺(tái)DeepCRISPR。相應(yīng)的成果發(fā)表在國際著名期刊《基因組生物學(xué)》(Genome Biology)。該工作獲國際權(quán)威論文評(píng)價(jià)體系F1000推薦為領(lǐng)域內(nèi)Technique Advance【3】。本次工作是劉琦教授課題組繼2018年DeepCRISPR工作之后在基因編輯系統(tǒng)數(shù)據(jù)分析領(lǐng)域的又一有益探索。該論文第一作者是劉琦教授課題組的博士生段斌,第一通訊作者是劉琦教授,上海交通大學(xué)第九人民醫(yī)院孫樹洋教授團(tuán)隊(duì)和同濟(jì)大學(xué)醫(yī)學(xué)院王平教授團(tuán)隊(duì)對(duì)本工作中單細(xì)胞CRISPR篩選實(shí)驗(yàn)層面的理解和數(shù)據(jù)解讀提供了重要的支持。該研究成果得到國家科技部精準(zhǔn)醫(yī)學(xué)重點(diǎn)研發(fā)計(jì)劃,慢病項(xiàng)目重點(diǎn)研發(fā)計(jì)劃及國家自然科學(xué)基金面上項(xiàng)目經(jīng)費(fèi)的資助。
【1】Bin Duan et al, Qi Liu#, Model based Understanding of Single-cell CRISPR Screening, Nature Communications, Advance Access, 2019.
【2】Carmen Bravo González-Blas et al, cisTopic: cis-regulatory topic modeling on single-cell ATAC-seq data, , Nature Methods, Advance Access, 2019.
【3】 Guohui Chuai et al, Qi Liu#, DeepCRISPR: optimized CRISPR guide RNA design by deep learning, Genome Biology, Advance Access, 2018.
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請(qǐng)聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com