近日,國(guó)際知名期刊《Nature?Machine?Intelligence》在線發(fā)表了上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院魏冬青團(tuán)隊(duì)的研究論文《A transformer-based model to predict peptide–HLA class I binding and optimize mutated peptides for vaccine design》。生命科學(xué)技術(shù)學(xué)院2017級(jí)博士研究生褚晏伊和香港大學(xué)深圳醫(yī)院的張艷博士為該論文的共同第一作者。生命科學(xué)技術(shù)學(xué)院魏冬青教授和熊毅副研究員為該論文的共同通訊作者。
人類白細(xì)胞抗原(HLA)和肽(pHLA)之間相互作用的計(jì)算預(yù)測(cè)可以加快表位篩選和疫苗。該研究開發(fā)了TransMut框架,包含了用于pHLA結(jié)合預(yù)測(cè)的TransPHLA和用于突變肽優(yōu)化的AOMP程序,它可以推廣到生物分子的任何結(jié)合和突變?nèi)蝿?wù)(圖1)。
TransPHLA設(shè)計(jì)了Transformer衍生模型來(lái)預(yù)測(cè)pHLA的結(jié)合。在pHLA結(jié)合預(yù)測(cè)、新抗原鑒定和HPV疫苗鑒定方面,TransPHLA均優(yōu)于現(xiàn)有的14種方法?;赥ransPHLA開發(fā)的AOMP程序可用于疫苗設(shè)計(jì),它可以自動(dòng)優(yōu)化突變肽,以搜索對(duì)目標(biāo)HLA具有更高親和力并與源肽具有高度同源性的突變肽。在3660個(gè)非結(jié)合pHLA中,有3630個(gè)源肽被成功突變。其中,94%通過(guò)IEDB的推薦方法得到驗(yàn)證,88%與源肽的同源性高于80%。
圖1.TransMut框架在webserver上的輸入和輸出
?
1.數(shù)據(jù)集
該研究包含112種HLA,肽長(zhǎng)度從8到14,共有366種HLA-肽長(zhǎng)度組合。詳情見圖2和圖3。
圖2.不同數(shù)據(jù)集中每個(gè)HLA相關(guān)的可結(jié)合的pHLA樣本數(shù)
圖3.不同數(shù)據(jù)集中肽長(zhǎng)度相關(guān)的可結(jié)合的pHLA樣本數(shù)
2.TransPHLA模型
TransPHLA的核心思想是自注意力機(jī)制的應(yīng)用。TransPHLA由以下四個(gè)模塊組成(圖4):首先使用embedding?block將positional?embedding添加到amino?acid?embedding中,以生成sequence?embedding,然后應(yīng)用dropout技術(shù)來(lái)增強(qiáng)魯棒性。通過(guò)embedding?block,TransPHLA分別生成肽和HLA的embedding。接下來(lái),這些embedding將分別作為Encoder?block的輸入。Encoder?block包含masked?multi-head?self-attention?mechanism和feature?optimization?block。Feature?optimization?block是先上升后下降的全連接層的組合,這個(gè)模塊使得注意力機(jī)制得到的特征表示更好。然后,將輸出的肽和HLA的特征表示連接,作為pHLA的embedding。在pHLA的embedding通過(guò)encoder?block后,使用projection?block預(yù)測(cè)pHLA的結(jié)合分?jǐn)?shù)。
圖4.TransPHLA模型圖
3.TransPHLA模型解釋了pHLA結(jié)合的模式
TransPHLA的注意力機(jī)制為提供了生物學(xué)可解釋性。有證據(jù)表明,肽的C端、N端和錨定位點(diǎn)對(duì)于與HLA的結(jié)合至關(guān)重要,它們通常位于肽序列的第一個(gè)、最后一個(gè)和第二個(gè)位置。TransPHLA的注意力分?jǐn)?shù)也證實(shí)了這一點(diǎn),如圖5a所示。
此外,我們分析了正負(fù)樣本上的氨基酸類型分別對(duì)不同肽位置的結(jié)合和非結(jié)合的貢獻(xiàn)(圖5b)??梢园l(fā)現(xiàn),pHLA的結(jié)合和不結(jié)合受到肽的不同成分的影響。因此,我們分析了不同肽位置的20種氨基酸對(duì)所有366種HLA-肽長(zhǎng)度組合的結(jié)合或非結(jié)合的影響。這些結(jié)果不僅有助于人們了解pHLA結(jié)合的機(jī)制,還在AOMP程序的疫苗設(shè)計(jì)上起到關(guān)鍵作用。
由于注意力分?jǐn)?shù)代表了pHLA結(jié)合的模式,這意味著肽序列上的關(guān)鍵氨基酸位點(diǎn)對(duì)于結(jié)合或不結(jié)合目標(biāo)HLA很重要。我們可視化了5個(gè)HLA的結(jié)合模式(圖5c)。正如預(yù)期的那樣,TransPHLA在不同的肽位置發(fā)現(xiàn)了與先前研究相似的氨基酸類型模式。對(duì)于HLA-A*11:01,TransPHLA識(shí)別第9位具有K(Lys)的肽的錨定殘基。對(duì)于HLA-B*40:01,TransPHLA成功鑒定了重要的殘基,即第2位的E(Glu)和第9位的L(Leu)。對(duì)于HLA-B*57:03,疏水殘基通常形成結(jié)合口袋,TransPHLA通過(guò)第9位的L、第9位的F(Phe)和第9位的W(Trp)確定了這種偏好。對(duì)于HLA-A*68:01,4HWZ55證明肽的第9位的K和第9位的R(Arg)殘基顯著有助于結(jié)合。對(duì)于HLA-B*44:02,第2位的E的重要性已被1M6O56證明。所有這些結(jié)果都得到了先前研究的支持,并證明了我們方法的有效性。
圖5.(a)與所有正確預(yù)測(cè)的樣本、正確預(yù)測(cè)的正樣本和正確預(yù)測(cè)的負(fù)樣本相關(guān)聯(lián)的注意力分?jǐn)?shù) (b)肽的氨基酸類型和肽位置對(duì)pHLA結(jié)合的貢獻(xiàn) (c)與5個(gè)充分表征的HLA等位基因相關(guān)的肽結(jié)合劑的累積注意力分?jǐn)?shù)。注意,較亮的殘基被認(rèn)為在pHLA結(jié)合中更重要。
4.AOMP程序
基于TransPHLA獲得的注意力機(jī)制,開發(fā)了AOMP程序(圖6)用于肽疫苗設(shè)計(jì)。當(dāng)用戶提供一對(duì)源肽和目標(biāo)HLA時(shí),AOMP程序可以搜索對(duì)目標(biāo)HLA具有更高親和力且不超過(guò)4個(gè)突變位置的突變肽。該程序既保證了突變肽與目標(biāo)HLA的親和性,又保證了突變肽與源肽的同源性,從而觸發(fā)交叉免疫。
一方面,對(duì)于366種HLA-肽長(zhǎng)度組合中的每一種,該研究為每個(gè)肽位置建立了關(guān)于20種氨基酸的結(jié)合貢獻(xiàn)矩陣。為了適應(yīng)新的或未知的HLA-肽長(zhǎng)度的組合,該研究還建立了一個(gè)通用的結(jié)合貢獻(xiàn)矩陣。另一方面,在預(yù)測(cè)親和力相對(duì)較弱的pHLA時(shí),使用TransPHLA得到的注意力分?jǐn)?shù)來(lái)計(jì)算肽上每個(gè)氨基酸位點(diǎn)的貢獻(xiàn)矩陣。
根據(jù)上述兩個(gè)貢獻(xiàn)矩陣計(jì)算了兩個(gè)貢獻(xiàn)率矩陣,其中貢獻(xiàn)矩陣中的元素值越大,對(duì)相應(yīng)氨基酸位點(diǎn)的結(jié)合或非結(jié)合越關(guān)鍵。直觀地說(shuō),如果氨基酸位點(diǎn)對(duì)預(yù)測(cè)為非結(jié)合的貢獻(xiàn)更大,那將它們替換為對(duì)預(yù)測(cè)為結(jié)合貢獻(xiàn)更大的其他氨基酸,則突變肽更有可能與目標(biāo)HLA具有更高的親和力。基于上述四個(gè)矩陣,設(shè)計(jì)了四種策略來(lái)生成突變肽(圖6),主要思想是比較源肽上對(duì)弱親和力有很大影響的氨基酸位點(diǎn)和目標(biāo)HLA-肽長(zhǎng)度上對(duì)高親和力有顯著影響的氨基酸位點(diǎn)。然后根據(jù)比較結(jié)果進(jìn)行相應(yīng)的氨基酸替換。過(guò)程如下:(1)預(yù)測(cè)源肽和目標(biāo)HLA的結(jié)合分?jǐn)?shù);(2)基于self-attention機(jī)制找到一些最重要的氨基酸位點(diǎn);(3)用一些可能對(duì)結(jié)合預(yù)測(cè)貢獻(xiàn)更大的氨基酸替換這些弱親和力pHLA的重要位點(diǎn);(4)選擇一些最佳突變候選者進(jìn)行評(píng)估。
圖6.AOMP程序的工作流程,以肽DLLPETPW和HLA-B*51:01為例。其中,最下面兩張子圖的數(shù)字和字母,如8I表示將上一級(jí)得到的肽的第8位氨基酸W替換為氨基酸I
5.分子動(dòng)力學(xué)模擬
基于已報(bào)道的等位基因特異性HLA分子的X射線晶體結(jié)構(gòu),該研究使用分子動(dòng)力學(xué)(MD)模擬方法進(jìn)一步驗(yàn)證了TransPHLA和AOMP程序的有效性。根據(jù)結(jié)果??,(a)提出的TransPHLA獲得的注意力機(jī)制與pHLA復(fù)合物的結(jié)構(gòu)一致,(b)TransPHLA的預(yù)測(cè)結(jié)果與MD模擬和IEDB推薦的NetMHCpan_BA方法的預(yù)測(cè)結(jié)果一致。
該研究選擇HLA-A*02:01作為目標(biāo)HLA分子,因?yàn)镠LA-A*02:01是高頻等位基因,PDB數(shù)據(jù)庫(kù)中公開了多個(gè)肽和HLA-A*02:01的復(fù)雜結(jié)構(gòu),為MD提供了足夠的數(shù)據(jù)支持。KRAS是腫瘤發(fā)生和發(fā)展的驅(qū)動(dòng)突變,而且KRAS的突變位點(diǎn)相對(duì)保守,G12突變頻率占該基因所有突變的83%。G12中,G12D的突變頻率最高(41%),其次是G12V(28%),G12C為14%。因此,該研究選擇了含有G12的長(zhǎng)度為9的肽作為源肽。
對(duì)于TransPHLA預(yù)測(cè)出的不與目標(biāo)HLA結(jié)合的源肽,使用AOMP生成一系列突變肽。然后,選擇只有兩個(gè)位點(diǎn)發(fā)生變化并預(yù)測(cè)為結(jié)合的突變肽作為MD對(duì)象?;贖LA-A*02:01(PDB:1HHK)的結(jié)構(gòu),構(gòu)建了HLA-A*02:01與多肽的分子動(dòng)力學(xué)模型。肽包括源肽和選定的突變肽。分子動(dòng)力學(xué)模擬的結(jié)果表明,突變肽的結(jié)合力明顯強(qiáng)于源肽,這與TransPHLA和NetMHCpan_BA的預(yù)測(cè)結(jié)果一致。
而且,許多研究已經(jīng)證明HLA-A*02:01的關(guān)鍵結(jié)合位點(diǎn)是N端(即位置1或P1)、第二位置(即P2)和C端(即P9)。HLA-A*02:01與長(zhǎng)度為9的肽復(fù)合物的X射線晶體結(jié)構(gòu)也表明,P2和P9錨定位點(diǎn)的氨基酸可以與HLA的側(cè)鏈形成氫鍵。圖7證實(shí)了所提出的TransPHLA對(duì)HLA-A*02:01和長(zhǎng)度為9的肽的注意力機(jī)制的有效性。該圖顯示位置2的L氨基酸(2L),9L或9V是肽與HLA結(jié)合的關(guān)鍵氨基酸,與現(xiàn)有文獻(xiàn)的結(jié)果一致。此外,分析源肽YKLVVVGAG和衍生自它的2個(gè)突變肽YLLVVVGAV和YLLVVVGAL。圖8和圖9分別顯示了上述3種肽和HLA-A*02:01的分子動(dòng)力學(xué)模擬結(jié)果。結(jié)果證實(shí)源肽對(duì)HLA-A*02:01的親和力更弱,圖8a展示源肽與HLA沒有氫鍵相互作用,圖9a顯示源肽遠(yuǎn)離HLA結(jié)合溝。而圖8bc和圖9bc顯示突變肽可與HLA側(cè)鏈形成多個(gè)氫鍵相互作用,促進(jìn)了突變肽與HLA的結(jié)合。
圖7.TransPHLA對(duì)HLA-A*02:01和長(zhǎng)度為9的肽的注意機(jī)制
圖8.分子動(dòng)力學(xué)模擬的肽和HLA-A*02:01的2D結(jié)構(gòu)。氫鍵顯示為黃色虛線
圖9.分子動(dòng)力學(xué)模擬的肽和HLA-A*02:01的3D結(jié)構(gòu)。(a)中的源肽鏈顯示為紫紅色卷線,氫鍵顯示為黃色虛線
?
論文鏈接:https://www.nature.com/articles/s42256-022-00459-7
版權(quán)與免責(zé)聲明:本網(wǎng)頁(yè)的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請(qǐng)聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com