科研进展

当前位置: 首页  >  科学研究  >  正文

【科研动态】生命学院薛宇教授研究团队开发相素化位点及相素蛋白互作模体预测工具GPS-SUMO 2.0

时间:2024-05-10     浏览次数:

相素化(SUMOylation)是高度保守的类泛素化修饰,在各种生物学过程中发挥着关键调控作用,包括基因表达和染色质重塑以及细胞动态过程。在细胞中,相素可以通过共价连接到底物的特定赖氨酸残基即发生相素化,或者非共价地结合到含有相素蛋白互作模体的蛋白质上来发挥调节功能。相素蛋白的功能失调与多种重要疾病密切相关,例如神经退行性疾病、自身免疫性疾病和癌症。因此,鉴定相素化位点和相素蛋白互作模体对研究相素蛋白在细胞、生理和病理过程中的作用乃至探索疾病潜在治疗靶点等都非常重要。

2024年5月8日,来自华中科技大学生命与科学技术学院薛宇团队在Nucleic Acids Research期刊上发表了题为“GPS-SUMO 2.0: an updated online service for the prediction of SUMOylation sites and SUMO-interacting motifs”的研究论文。


除了使用实验筛选和鉴定方法外,一系列计算预测工具也为有效识别相素化位点相素蛋白互作模体提供了有用信息。从2006年到2014年,薛宇教授团队开发了一系列鉴定相素化位点的工具,在2014年整合了相素蛋白互作模体的预测,发布了GPS-SUMO[1]。由于赖氨酸位点修饰数据的大量产生,将赖氨酸的通用修饰信息预训练后结合前沿AI技术迁移到相素化是否能提供更好的预测效果还不得而知。根据用户的需求和建议,团队与中国科学院计算机网络信息中心高性能计算部开展合作,基于“东方”超算系统对GPS-SUMO进行了改进,开发了一款能方便预测相素化位点和相素蛋白互作模体的在线服务工具,并利用35个公共资源对预测结果进行注释(图1)。

图1 GPS-SUMO 2.0流程图


GPS-SUMO 2.0采用了三种机器学习算法,包括Transformer、惩罚逻辑回归(PLR)和深度神经网络(DNN)。算法设计采用了前沿的“预训练+微调”的技术策略,先收集了来自CPLM 4.0数据库的145,545个非冗余赖氨酸修饰位点数据,利用Transformer框架学习赖氨酸修饰位点与蛋白质序列上其他残基间的上下文信息,构建了赖氨酸修饰的语言模型;在此基础上,利用来自8,262个蛋白质的52,404个非冗余相素化位点和来自102个蛋白质的163个相素蛋白互作模体数据,对Transformer模型进行迁移学习微调;此外,利用惩罚逻辑回归和深度神经网络学习相素化位点邻近的理化性质,从而实现“上下文+邻近”信息的精准学习。与其他现有工具相比,GPS-SUMO 2.0表现出更高的准确性。

用户可以在GPS-SUMO 2.0的网页中输入一个或多个FASTA格式的蛋白质序列或UniProt编号进行预测,输入后选择预测需要的阈值,点击“Submit”按钮即可预测(图2A)。预测的结果将以表格形式展现在网页,所有输入的蛋白质的预测结果可以选择以.txt或.xls的方式下载。预测位点的实验证据可以通过点击预测页面“Source”栏中的“Exp”(如果有的话)来查看。“PPI”栏提供了位点与相素蛋白或者E3连接酶的蛋白互作信息(图2B)。预测为阳性和阴性的位点或模体数量统计呈现在可交互的圆环图中。同时,通过3Dmol.js[2]可以看到预测蛋白的三维结构(图2C)。在综合模式上,根据底物序列,NetSurfP[3]可以预测蛋白的表面可及性和二级结构,包括α-螺旋、β-折叠和线圈的预测,它们被显示在示意图中(图2C)。点击“Export"按钮可以获得注释图像的.png文件。

图2 GPS-SUMO 2.0的使用


GPS-SUMO 2.0免费向所有人服务且没有登录要求(https://sumo.biocuckoo.cn),关于GPS-SUMO 2.0的使用教程以及注释请参照(https://sumo.biocuckoo.cn/userguide.php)。

综上所述,该工具结合最新的机器学习方法与高质量的数据集,为实验筛选提供了有效的帮助,并且对预测结果做出了进一步的注释。目前GPS-SUMO 2.0还存在一些不足,由于相素蛋白修饰的复杂性,预测结果与实验鉴定位点还有一定差异。而且高通量的数据鉴定方法还在发展中,同时前沿的AI技术也在不断进步,在后续的工具升级中团队将从更多的公共资源中收集数据,并且对算法进行更新。GPS-SUMO 2.0将被持续地维护和改进,用于学术研究。

华中科技大学生命学院薛宇教授,青年教师彭迪和中国科学院计算机网络信息中心的陆腾研究员为共同通讯作者。华中科技大学生命科学与技术学院博士生苟宇杰、刘丹为本文的共同第一作者。华中科技大学生命科学与技术学院为第一完成单位。

该研究得到了国家重点研发项目、中国自然科学基金、湖北创新群体项目、湖北省博士后优秀人才跟踪支持计划等的资助。

文章链接:

https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkae346/7665625