最新研究成果 | 清華大學(xué)藥學(xué)院田博學(xué)課題組基于蛋白質(zhì)語言模型和對比學(xué)習(xí)預(yù)測蛋白質(zhì)-小分子結(jié)合位點(diǎn)





最新研究速遞

2024年11月6日清華大學(xué)藥學(xué)院田博學(xué)課題組在Journal of Cheminformatics發(fā)表題為“Protein-small molecule binding site prediction based on a pre-trained protein language model with contrastive learning”的文章。該研究提出了一個(gè)基于與訓(xùn)練的蛋白質(zhì)語言模型和對比學(xué)習(xí)的蛋白質(zhì)-小分子結(jié)合位點(diǎn)預(yù)測模型(CLAPE-SMB),并整理了蛋白質(zhì)-小分子結(jié)合位點(diǎn)數(shù)據(jù)集UniProtSMB,CLAPE-SMB在UniProtSMB的測試集上達(dá)到了0.699的MCC,優(yōu)于其他模型。與基于結(jié)構(gòu)的預(yù)測方法相比,CLAPE-SMB特別適用于缺乏精確實(shí)驗(yàn)結(jié)構(gòu)的蛋白質(zhì),如固有無序蛋白(IDP)。這就為理解蛋白質(zhì)-小分子相互作用提供新的視角,并為藥物設(shè)計(jì)提供新的可能。




研究背景

蛋白質(zhì)與小分子的相互作用在很多生命活動(dòng)中發(fā)揮關(guān)鍵作用,例如催化反應(yīng)、信號傳導(dǎo)、代謝調(diào)控等。小分子通過與蛋白質(zhì)的特定位點(diǎn)結(jié)合,調(diào)控其活性,進(jìn)而影響生物體內(nèi)的多種功能。為了找到蛋白質(zhì)上的這些結(jié)合位點(diǎn),科學(xué)家們采用了許多實(shí)驗(yàn)方法,如表面等離子體共振(SPR)、質(zhì)譜分析和X射線晶體學(xué)等高分辨率成像技術(shù)。這些實(shí)驗(yàn)方法能精準(zhǔn)定位結(jié)合位點(diǎn),但耗時(shí)且資源需求大。計(jì)算方法為結(jié)合位點(diǎn)的預(yù)測提供了高效的補(bǔ)充,主要分為基于蛋白質(zhì)結(jié)構(gòu)和基于序列的預(yù)測模型。基于結(jié)構(gòu)的模型,如ScanNet和DeepSite,利用蛋白質(zhì)的三維結(jié)構(gòu)信息來確定潛在的結(jié)合位點(diǎn),精度較高,但對蛋白質(zhì)結(jié)構(gòu)的依賴限制了預(yù)測范圍、增加了應(yīng)用難度。相比之下,基于序列的模型擺脫對結(jié)構(gòu)的依賴,使用簡單但精確度較低。如GraphBind和DeepProSite,在僅使用序列信息的情況下表現(xiàn)一般。因此,目前基于蛋白質(zhì)序列的小分子結(jié)合位點(diǎn)的預(yù)測仍然是一個(gè)具有挑戰(zhàn)性的問題。



研究過程

PROCESS

為了解決目前模型準(zhǔn)確度低的問題,我們提出了CLAPE-SMB。CLAPE-SMB由三個(gè)模塊組成。第一是蛋白質(zhì)語言模型ESM-2,將一維的序列信息編碼為二維的特征矩陣。第二是多層感知機(jī)(MLP),將二維信息轉(zhuǎn)化為殘基級別的小分子結(jié)合概率。第三是損失函數(shù)模塊,包括解決類別不平衡的focal loss和對比學(xué)習(xí)損失函數(shù)(TCL)。


圖1:CLAPE-SMB的結(jié)構(gòu)

為了使CLAPE-SMB有更好的泛化能力,我們構(gòu)建了UniProtSMB數(shù)據(jù)集作為訓(xùn)練集。我們從UniProtKB數(shù)據(jù)庫中篩選出具有三維結(jié)構(gòu)和小分子結(jié)合位點(diǎn)的實(shí)驗(yàn)驗(yàn)證蛋白質(zhì),去除長度過長的蛋白質(zhì)并標(biāo)注標(biāo)簽。隨后,進(jìn)行聚類去除冗余蛋白,形成UniProtSMB數(shù)據(jù)集。最后,將UniProtSMB數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。


圖2:UniProtSMB數(shù)據(jù)集的構(gòu)建流程

IDP沒有穩(wěn)定的三維結(jié)構(gòu)。因此依賴準(zhǔn)確結(jié)構(gòu)信息進(jìn)行預(yù)測的模型很難處理IDP。我們構(gòu)建了IDP數(shù)據(jù)集,CLAPE-SMB在其上獲得了0.815的MCC。進(jìn)一步,我們選取了兩個(gè)在固有無序區(qū)域(IDR)上有小分子結(jié)合位點(diǎn)的IDP進(jìn)行案例研究,結(jié)果顯示CLAPE-SMB能夠準(zhǔn)確預(yù)測出IDR上的結(jié)合位點(diǎn)。


圖3:固有無序蛋白的案例研究

絕大多數(shù)蛋白質(zhì)尚未解析結(jié)構(gòu),其中包括大量膜蛋白,而膜蛋白通常與多種小分子結(jié)合。未來,CLAPE-SMB可以用于預(yù)測膜蛋白的小分子結(jié)合情況。此外,CLAPE-SMB還能夠結(jié)合特定小分子的SMILES信息,僅預(yù)測該小分子是否與某蛋白存在結(jié)合位點(diǎn),并定位具體的結(jié)合殘基。這一功能有望應(yīng)用于虛擬篩選和老藥新用等領(lǐng)域。



研究結(jié)論

本研究提出了CLAPE-SMB,它將預(yù)訓(xùn)練的蛋白語言模型與對比學(xué)習(xí)相結(jié)合,實(shí)現(xiàn)了高精度的小分子結(jié)合位點(diǎn)預(yù)測,尤其適用于沒有晶體結(jié)構(gòu)的蛋白質(zhì)。我們在基于sc-PDB、JOINED和COACH420構(gòu)建的非冗余SJC數(shù)據(jù)集上對CLAPE-SMB進(jìn)行了訓(xùn)練和測試,獲得了0.529的MCC。此外,基于UniProtKB數(shù)據(jù)構(gòu)建的UniProtSMB數(shù)據(jù)集上,CLAPE-SMB在測試集上達(dá)到了0.699的MCC。對于包含336條非冗余序列的固有無序蛋白數(shù)據(jù)集,CLAPE-SMB的MCC高達(dá)0.815。對DAPK1、RebH和Nep1的案例分析進(jìn)一步證明了該工具在藥物設(shè)計(jì)中的潛在應(yīng)用價(jià)值。


致謝

清華大學(xué)藥學(xué)院田博學(xué)副教授為本文的通訊作者。清華大學(xué)本科生王玨和田博學(xué)課題組已畢業(yè)學(xué)生劉宇帆為本文的共同第一作者。本課題得到了Beijing Frontier Research Center for Biological Structure (No. 041500002), Tsinghua University Initiative Scientific Research Program (No.20231080030), the Tsinghua-Peking University Center for Life Sciences (No.20111770319)支持。



論文鏈接:https://doi.org/10.1186/s13321-024-00920-2  


曲靖市| 来安县| 鄂州市| 普安县| 密山市| 依兰县| 微博| 郑州市| 永德县| 徐水县| 郎溪县| 奈曼旗| 常熟市| 泰和县| 东兴市| 普陀区| 蓬莱市| 泌阳县| 连平县| 马龙县| 慈利县| 宜宾市| 扶风县| 博湖县| 南京市| 石林| 西宁市| 刚察县| 临朐县| 宁河县| 桃园县| 湟源县| 陆川县| 常熟市| 康马县| 阿坝县| 明溪县| 应城市| 尉犁县| 建宁县| 阿克苏市|