最新研究成果 | 清華大學(xué)藥學(xué)院張數(shù)一團(tuán)隊(duì)提出蛋白質(zhì)序列-功能空間壓縮的概念


最新科研速遞

蛋白質(zhì)作為最重要的生命構(gòu)建單元之一,其序列和功能之間的映射(適應(yīng)性景觀,F(xiàn)itness landscape)的針對(duì)性研究對(duì)于蛋白質(zhì)理性設(shè)計(jì)以及工程應(yīng)用都有極大的意義。目前人們只能對(duì)于蛋白質(zhì)序列-功能關(guān)系進(jìn)行少量低緯度的點(diǎn)采樣,例如深度突變搜索(DMS),單位點(diǎn)飽和突變1-4等,或是利用隨機(jī)建庫(kù)等方式以極低概率捕獲序列與功能耦連的關(guān)鍵信息5,6。一些更高效的定向進(jìn)化工具如PACE7,8,OrthoRep9等會(huì)使得蛋白質(zhì)空間的搜索深度加深,但由于其專注于產(chǎn)生高適應(yīng)性突變體的特征使得其對(duì)于蛋白功能的全局認(rèn)知不足。一些計(jì)算方法成功構(gòu)建起序列-結(jié)構(gòu)之間的精確關(guān)聯(lián),例如2024年諾貝爾化學(xué)獎(jiǎng)獲獎(jiǎng)?wù)唛_發(fā)的AlphaFold, RoseTTAFold等結(jié)構(gòu)預(yù)測(cè)或設(shè)計(jì)算法,并進(jìn)一步試圖利用深度學(xué)習(xí)構(gòu)建序列和功能的映射關(guān)系,但由于缺乏高質(zhì)量大規(guī)模的序列-功能映射數(shù)據(jù),計(jì)算方法的可延展性始終有所限制。總之,受限于蛋白質(zhì)序列空間的高維度與復(fù)雜性(例如,100個(gè)氨基酸的蛋白質(zhì)設(shè)計(jì)空間達(dá)到10130,遠(yuǎn)超宇宙中的原子數(shù)目~1080),我們對(duì)這個(gè)空間及其映射規(guī)律的理解尚淺,亟待豐富與完善。


2024年11月11日,來(lái)自清華大學(xué)的張數(shù)一團(tuán)隊(duì)在Nature Methods上發(fā)表了名為“EvoAI enables extreme compression and reconstruction of the protein sequence space”的文章。提出了對(duì)蛋白質(zhì)序列-功能空間進(jìn)行壓縮的概念,開發(fā)了進(jìn)化掃描系統(tǒng),可以高效獲取空間壓縮后的錨點(diǎn)(Anchor),并開發(fā)了相應(yīng)的EvoAI系統(tǒng),實(shí)現(xiàn)了對(duì)蛋白質(zhì)序列-功能空間的進(jìn)化壓縮和AI重構(gòu),壓縮比可以達(dá)到1048,對(duì)于理解蛋白質(zhì)序列-功能空間映射關(guān)系引入了新的視角。


研究人員首先構(gòu)建了進(jìn)化搜索系統(tǒng)(Evolutionary Scanning, EvoScan)用以對(duì)蛋白進(jìn)行分區(qū)域定向進(jìn)化,如圖一所示。該系統(tǒng)改造了噬菌體輔助的連續(xù)定向進(jìn)化系統(tǒng)(PACE)。其中,突變體系來(lái)源EvolvR系統(tǒng)中enCas9-PolIM5復(fù)合蛋白10,通過(guò)構(gòu)建其誘導(dǎo)表達(dá)體系來(lái)創(chuàng)建靶向分區(qū)域突變質(zhì)粒(TP)。為了測(cè)試系統(tǒng)的可行性,研究人員先后利用了綠色熒光蛋白EGFP的納米抗體突變體的回復(fù)突變實(shí)驗(yàn)測(cè)試蛋白-蛋白相互作用的靶向進(jìn)化,以及利用SARS-CoV-2主蛋白酶Mpro蛋白對(duì)其抑制劑的逃逸效應(yīng)的進(jìn)化測(cè)試蛋白-配體相互作用的靶向進(jìn)化,證明該系統(tǒng)可以對(duì)gRNA覆蓋的上下游約30bp的區(qū)域進(jìn)行靶向進(jìn)化并得到功能提升的突變體。隨后,研究人員利用EvoScan進(jìn)化了轉(zhuǎn)錄因子AmeR對(duì)于特定DNA序列的抑制能力,設(shè)計(jì)了13條gRNA對(duì)于蛋白進(jìn)行區(qū)域分割,最終在8個(gè)區(qū)域中找到氨基酸突變。研究人員對(duì)這些區(qū)域進(jìn)行隨機(jī)排序,構(gòu)建了8個(gè)不同的進(jìn)化路徑,使進(jìn)化過(guò)程可以遍歷以上8個(gè)區(qū)域,最終產(chǎn)生了82個(gè)功能提升,維度各不相同的錨點(diǎn),并對(duì)上述錨點(diǎn)進(jìn)行基于流式熒光的功能測(cè)試,系統(tǒng)生物學(xué)分析以及上位效應(yīng)(Epistasis)的分析與計(jì)算等。其結(jié)果顯示,盡管絕大多數(shù)突變對(duì)于蛋白功能都有不同程度的提升,但不同的單點(diǎn)突變對(duì)于不同的突變組合而言,產(chǎn)生的功能效應(yīng)并非都是提升,一些突變位點(diǎn)能夠提升蛋白功能,但會(huì)干擾其他的突變位點(diǎn)的效應(yīng),這反映了蛋白質(zhì)序列空間的高復(fù)雜度。



圖一. EvoScan系統(tǒng)構(gòu)成和蛋白質(zhì)序列-功能空間壓縮


為了理解和重構(gòu)這個(gè)高緯度復(fù)雜空間,研究人員設(shè)計(jì)了與EvoScan配套的深度學(xué)習(xí)算法,并命名為EvoAI,如圖二所示。該方法結(jié)合了預(yù)訓(xùn)練的GeoFitness模型和蛋白質(zhì)語(yǔ)言模型(ESM-2),加上多層感知器(MLP),以提高預(yù)測(cè)蛋白質(zhì)突變效應(yīng)的準(zhǔn)確性。在本研究中EvoAI利用AmeR蛋白82個(gè)突變體的序列-功能映射信息對(duì)模型加以訓(xùn)練,并生成了不同于上述突變體的共1093個(gè)新蛋白,通過(guò)對(duì)于預(yù)測(cè)強(qiáng)度的排序,研究人員測(cè)試了預(yù)測(cè)強(qiáng)度最高的10個(gè)突變體,并將其與僅利用傳統(tǒng)DMS方法預(yù)測(cè)得到的10個(gè)具備相同突變數(shù)量的,強(qiáng)度最高的10個(gè)突變體進(jìn)行強(qiáng)度對(duì)比,結(jié)果顯示,通過(guò)EvoAI預(yù)測(cè)得到的突變體均有顯著的功能提升,而DMS方法得到的突變體多數(shù)均無(wú)顯著功能提升,甚至某些突變體不再具備明顯的抑制功能。這表明EvoAI系統(tǒng)識(shí)別到了通過(guò)信息壓縮得到的高維度蛋白信息,并有效地生成了具備功能的突變體。


圖二. EvoAI原理示意圖和蛋白質(zhì)序列-功能空間重構(gòu)


與現(xiàn)有方法相比,該方法有幾個(gè)重要優(yōu)勢(shì)。首先,它實(shí)現(xiàn)了序列空間的廣泛,均勻且精確的采樣,這可以快速探索高維并生成更多樣化和功能性的突變體,并提供有關(guān)序列-功能映射的更豐富信息。其次,該方法整合了基于經(jīng)驗(yàn)的進(jìn)化掃描和深度學(xué)習(xí)模型,充分利用了這兩種不同方法的優(yōu)勢(shì)。研究人員可以使用深度學(xué)習(xí)得到的關(guān)鍵特征來(lái)動(dòng)態(tài)地指導(dǎo)掃描過(guò)程。可解釋性深度學(xué)習(xí)在未來(lái)的進(jìn)一步發(fā)展可能會(huì)揭示潛在的進(jìn)化規(guī)則,并為蛋白質(zhì)如何適應(yīng)和克服進(jìn)化限制提供見解。第三,該方法可以進(jìn)化和研究缺乏結(jié)構(gòu)信息或涉及具有挑戰(zhàn)性的相互作用的蛋白質(zhì)。EvoScan可以針對(duì)不同的蛋白質(zhì)相互作用捕獲蛋白質(zhì)錨點(diǎn),如蛋白質(zhì)-蛋白質(zhì)、蛋白質(zhì)-配體和蛋白質(zhì)-核酸相互作用。文章中提出的蛋白質(zhì)序列-功能空間壓縮的概念也有望應(yīng)用于不同種類的蛋白質(zhì),并對(duì)自然界如何在有限時(shí)間內(nèi)完成蛋白質(zhì)空間的搜索和物種的高效進(jìn)化產(chǎn)生一定的啟發(fā)作用。


致謝

清華大學(xué)藥學(xué)院博士生馬梓源,李文杰,沈運(yùn)浩及清華大學(xué)生命學(xué)院博士生徐運(yùn)昕為論文共同第一作者,清華大學(xué)藥學(xué)院張數(shù)一老師為論文通訊作者。清華大學(xué)生命學(xué)院龔海鵬老師與清華大學(xué)藥學(xué)院田博學(xué)老師為該研究提供了極大幫助。該研究項(xiàng)目得到國(guó)家科技部重點(diǎn)研發(fā)計(jì)劃,國(guó)家自然科學(xué)基金,清華大學(xué)篤實(shí)專項(xiàng)基金和北京生物結(jié)構(gòu)前沿研究中心的資助。


參考文獻(xiàn)

1. Fowler, D. M. & Fields, S. Deep mutational scanning: a new style of protein science. Nat. Methods11, 801-807 (2014).

2. Stiffler, M. A., Hekstra, D. R. & Ranganathan, R. Evolvability as a function of purifying selection in TEM-1 β-lactamase. Cell 160, 882-892 (2015).

3. Zheng, L., Baumann, U. & Reymond, J.-L. An efficient one-step site-directed and site-saturation mutagenesis protocol. Nucleic Acids Res.32, e115 (2004).

4. McLaughlin Jr, R. N., Poelwijk, F. J., Raman, A., Gosal, W. S. & Ranganathan, R. The spatial architecture of protein function and adaptation. Nature491, 138-142 (2012).

5. Cadwell, R. C. & Joyce, G. F. Randomization of genes by PCR mutagenesis. Genome Res.2, 28-33 (1992).

6. Vanhercke, T., Ampe, C., Tirry, L. & Denolf, P. Reducing mutational bias in random protein libraries. Anal. Biochem.339, 9-14 (2005).

7. Esvelt, K. M., Carlson, J. C. & Liu, D. R. A system for the continuous directed evolution of biomolecules. Nature472, 499-503 (2011).

8. Miller, S. M., Wang, T. & Liu, D. R. Phage-assisted continuous and non-continuous evolution. Nat. Protoc.15, 4101-4127 (2020).

9. Ravikumar, A., Arzumanyan, G. A., Obadi, M. K. A., Javanpour, A. A. & Liu, C. C. Scalable, Continuous Evolution of Genes at Mutation Rates above Genomic Error Thresholds. Cell 175, 1946-1957.e1913 (2018).

10. Halperin, S. O. et al. CRISPR-guided DNA polymerases enable diversification of all nucleotides in a tunable window. Nature560, 248-252 (2018).   

康乐县| 麦盖提县| 定远县| 长沙市| 高平市| 定边县| 紫金县| 横山县| 兰坪| 南陵县| 灵宝市| 屏山县| 都安| 手机| 鄯善县| 麻栗坡县| 赣榆县| 琼海市| 香港 | 宁国市| 伊通| 吉木萨尔县| 来安县| 抚州市| 临邑县| 新乡市| 宜都市| 丰顺县| 安义县| 汤原县| 苍梧县| 凤翔县| 五大连池市| 兴山县| 天津市| 桦川县| 平罗县| 丹江口市| 朝阳县| 绥江县| 宜章县|