DNA與蛋白質相結合是生物學中許多關鍵生物過程的基礎,包括DNA轉錄、復制、表達等環(huán)節(jié)。轉錄因子是一類特殊的DNA結合蛋白質,它們通過與特定的DNA序列(基序)結合,調控基因的轉錄過程。因此二者的相互作用是維持生物體遺傳信息傳遞的關鍵一步,現有一些計算方法主要分為從基于序列角度和結構角度來預測二者的結合位點,基于序列的模型如BindN使用了幾種氨基酸屬性作為序列特征,并通過支持向量機(SVM)對結合殘基進行分類。基于結構的方法如GraphBind利用圖神經網絡(GNN)來提取蛋白的序列和結構特征,并以此來識別蛋白質分子中哪些氨基酸殘基與核酸的結合位置。然而基于結構的方法需要準確的蛋白質結構作為模型的輸入,因此,目前基于蛋白質序列的DNA結合位點的預測仍然是一個具有挑戰(zhàn)性的問題。
田博學課題組于2024年1月在Briefings in Bioinformatics雜志中發(fā)表了題為“Protein-DNA binding sites prediction based on pre-trained protein language model and contrastive learning”的研究論文,提出了CLAPE模型用于預測蛋白質?DNA結合位點。CLAPE包含三個核心模塊,序列嵌入模塊是根據ProtBert的預訓練語言模型生成蛋白質序列表征。主干提取模塊通過MLP, CNN等模型提取深層的蛋白信息。損失函數模塊包括解決類別不平衡的focal loss及對比損失。基于預訓練模型來提取特征可以有效避免了繁瑣的人工特征提取過程。結果顯示,CLAPE-DB模型在兩個基準數據集上的ROC曲線下面積值分別達到了0.871和0.881,表明與其他現有模型相比具有更優(yōu)越的性能。CLAPE-DB同時展示了更好的泛化能力,并且特別適用于DNA結合位點預測任務。此外,田博學課題組在不同的蛋白質-配體結合位點數據集上訓練了CLAPE,證明CLAPE是一個適用于結合位點預測的通用框架。