最新研究成果 | 清華大學藥學院田博學課題組研發(fā)了基于蛋白質語言模型的結構與功能預測方法

最新科研速遞


圖片

基于蛋白質語言模型的結構與功能預測方法開發(fā)


1

研究背景

隨著計算生物學的快速發(fā)展,我們正處于一個由數據驅動的生物信息學新時代。蛋白質,作為生命活動的執(zhí)行者,其結構和功能預測一直是科學研究的核心問題。近年來,深度學習技術的突破性進展,尤其是蛋白質語言模型的興起,為研究者們提供了一個全新的視角來了解蛋白質在生命體內所扮演的角色。

蛋白質語言模型,通過對大量序列的自監(jiān)督學習,能夠捕捉到氨基酸殘基之間復雜的相互作用和模式。這些模型不僅能夠預測蛋白質的三維結構,還能夠揭示其功能和動態(tài)特性,并展現出優(yōu)于經典計算生物學方法的表現。田博學課題組開發(fā)了一系列的基于蛋白質語言模型的方法,在抗體結構、蛋白質與DNA結合位點、細胞色素450酶活性預測等工作中取得了進展,為藥物設計、疾病機理研究以及生物工程等領域做出了貢獻。


2

研究內容

01

基于蛋白質語言模型的結構預測:

抗體藥物對癌癥、傳染病等的治療和預防具有重要意義。抗體的結構決定性質,因此結構預測對于性質優(yōu)化至關重要。現有的實驗方法通常需要消耗大量的實驗資源,而現有的計算生物學方法僅對抗體的框架區(qū)有較高的準確度,對影響抗原-抗體結合的CDR-H3結構的準確度較低。隨著人工智能方法AlphaFold2(AF2)的出現,蛋白結構預測領域取得了突破。然而,AF2對CDR-H3結構的預測誤差依然較大,在CDR-H3的平均Cα-RMSD約為2.85 ?。

田博學攜手清華大學錢鋒課題組以及百度團隊于2024年6月在eLife雜志中發(fā)表了題為“Accurate prediction of CDR-H3 loop structures of antibodies with deep learning”的研究論文,并開發(fā)了用于預測抗體CDR-H3的工具包 -- H3-OPT。H3-OPT包含了一個基于模板的模板模塊以及基于語言模型的深度學習模塊并構建了一個非冗余的抗體結構預測數據集。


圖1.H3-OPT的架構


H3-OPT在預測抗體結構方面的表現優(yōu)于現有的方法,包括AF2、IgFold、HelixFold-Single、ESMFold和OmegaFold,最終的CDR-H3的平均Cα-RMSD為2.24 ?。同時,H3-OPT的準確度在錢鋒課題組實驗解析的三個高精度納米抗體(Nbs)的結構中得到了進一步驗證。


圖2.H3-OPT的準確度


此外,田博學課題組發(fā)現H3-OPT在預測抗體表面性質方面也顯示出了優(yōu)勢,能夠預測更接近于實驗結構的表面氨基酸分布。在研究抗體-抗原相互作用的方面,田博學課題組通過分子動力學模擬證明了H3-OPT獲得的復合物結構的結合親和力與AF2預測的復合物相比更接近于天然復合物。


圖3.H3-OPT的應用

02

基于語言模型的蛋白-DNA結合位點預測:

DNA與蛋白質相結合是生物學中許多關鍵生物過程的基礎,包括DNA轉錄、復制、表達等環(huán)節(jié)。轉錄因子是一類特殊的DNA結合蛋白質,它們通過與特定的DNA序列(基序)結合,調控基因的轉錄過程。因此二者的相互作用是維持生物體遺傳信息傳遞的關鍵一步,現有一些計算方法主要分為從基于序列角度和結構角度來預測二者的結合位點,基于序列的模型如BindN使用了幾種氨基酸屬性作為序列特征,并通過支持向量機(SVM)對結合殘基進行分類。基于結構的方法如GraphBind利用圖神經網絡(GNN)來提取蛋白的序列和結構特征,并以此來識別蛋白質分子中哪些氨基酸殘基與核酸的結合位置。然而基于結構的方法需要準確的蛋白質結構作為模型的輸入,因此,目前基于蛋白質序列的DNA結合位點的預測仍然是一個具有挑戰(zhàn)性的問題。

田博學課題組于2024年1月在Briefings in Bioinformatics雜志中發(fā)表了題為“Protein-DNA binding sites prediction based on pre-trained protein language model and contrastive learning”的研究論文,提出了CLAPE模型用于預測蛋白質?DNA結合位點。CLAPE包含三個核心模塊,序列嵌入模塊是根據ProtBert的預訓練語言模型生成蛋白質序列表征。主干提取模塊通過MLP, CNN等模型提取深層的蛋白信息。損失函數模塊包括解決類別不平衡的focal loss及對比損失。基于預訓練模型來提取特征可以有效避免了繁瑣的人工特征提取過程。結果顯示,CLAPE-DB模型在兩個基準數據集上的ROC曲線下面積值分別達到了0.871和0.881,表明與其他現有模型相比具有更優(yōu)越的性能。CLAPE-DB同時展示了更好的泛化能力,并且特別適用于DNA結合位點預測任務。此外,田博學課題組在不同的蛋白質-配體結合位點數據集上訓練了CLAPE,證明CLAPE是一個適用于結合位點預測的通用框架。


圖4.CLAPE的模型框架

03

基于語言模型的P450分子對活性預測:

細胞色素P450酶(CYPs)在人體藥物代謝中起著至關重要的作用,顯著影響藥物的藥效及可利用度,因此在藥物開發(fā)早期及時鑒定CYP-分子對的活性將極大地增加藥物研發(fā)的成功率。鑒于現有的CYP-分子對活性預測模型均基于傳統(tǒng)的機器學習,而且每個模型只對單個CYP酶有效,田博學課題組在Journal of Chemical Information and Modeling發(fā)表了可預測人類9個關鍵CYPs活性的深度學習模型DeepP450(CYP1A2、CYP2A6、CYP2B6、CYP2C8、CYP2C9、CYP2C19、CYP2D6、CYP2E1、CYP3A4)。

DeepP450通過蛋白質語言模型ESM-2和可表征分子結構特征的預訓練模型Uni-Mol分別提取不同CYPs和分子的高維特征,利用交叉注意力和自注意力層進行特征融合并反向微調ESM-2和Uni-Mol,通過集成模型的方式實現了人體關鍵CYPs潛在底物的精準預測。該模型在測試集上的預測準確率高達92%,9種CYPs的底物/非底物預測AUROC值在0.89-0.98之間,優(yōu)于其他當前可用模型的預測性能。值得注意的是,DeepP450僅使用單一模型即可對9個不同CYPs進行底物/非底物鑒別,并且在未知化合物和其他人類CYPs數據集上表現出一定的泛化能力。


圖5. DeepP450模型架構圖


DeepP450模型提供了一個高效可靠的CYP-分子對活性預測工具,有助于研發(fā)人員在藥物開發(fā)早期有效識別和鑒定CYPs的活性底物,進而提升藥物研發(fā)的成功率。此外,田博學團隊還將進一步開發(fā)識別CYPs和底物之間潛在反應位點及終產物的預測工具,進一步助力經CYPs代謝的小分子藥物設計和開發(fā)進程。



了解更多內容,請參考下方文章鏈接

圖片

https://elifesciences.org/articles/91512

https://academic.oup.com/bib/article/25/1/bbad488/7505238?

https://pubs.acs.org/doi/10.1021/acs.jcim.4c00115


靖江市| 大荔县| 团风县| 阿城市| 宿松县| 肥东县| 科技| 全椒县| 藁城市| 南康市| 开江县| 鄂尔多斯市| 健康| 辽中县| 苍山县| 山东| 岳普湖县| 郧西县| 日喀则市| 台北县| 呼伦贝尔市| 沙坪坝区| 镇宁| 秦皇岛市| 泗洪县| 通道| 涿州市| 图木舒克市| 龙井市| 黑龙江省| 房山区| 集贤县| 惠安县| 兴安县| 威远县| 龙门县| 宜都市| 新乐市| 和平县| 阳高县| 兴安县|