师从诺奖得主!赵惠民教授最新Science:蛋白质科学界版ChatGPT来了
时间:2023-05-15 13:31:57 热度:37.1℃ 作者:网络
DNA测序技术的发展,特别是基因组学和宏基因组学工具的发展,使得大量蛋白质序列被发现。然而,仅有不到0.3%(约50万个)的蛋白质被人工专家审核过,不到19.4%受到明确实验证据的支持。缺乏审核的蛋白质,其功能注释往往只能依靠计算机自动标注。
大规模的基于社区的蛋白质功能注释研究表明,现有的计算机自动标注工具中,约有 40% 的酶类蛋白质的标注是错误的。这使得蛋白质功能注释仍然是一项令人望而却步的挑战。
如同 ChatGPT 使用书面语言的数据来创建预测文本一样,研究人员正在利用蛋白质的语言来预测它们的活动。
伊利诺伊大学香槟分校赵惠民团队,开发了一种名为CLEAN(contrastive learning–enabled enzyme annotation)的机器学习算法,使用了对比学习的方法来提高对酶功能的预测性能,能够表征酶功能,纠正错误标记的酶,以及识别具有两个或多个EC号的多功能酶。相关成果以“Enzyme function prediction using contrastive learning”发表于最新一期Science。
EC编号或EC号是酶学委员会(Enzyme Commission)为酶所制作的一套编号分类法,是以每种酶所催化的化学反应为分类基础。每一个酶的编号都以字母“EC”起头,接着以四个号码来表示。
目前开发了许多用于酶功能注释的计算机工具,这些工具大部分是通过将查询的序列与已知酶的目录进行比较,找到相似的序列来分配EC编号,标注这一酶催化哪种反应。然而,这些工具不适用于研究较少或未表征的酶,或者多功能酶。
该研究团队使用对比学习这一深度学习算法来预测酶功能,开发了一种名为CLEAN(contrastive learning–enabled enzyme annotation)的机器学习算法,CLEAN在UniProt的高质量数据上进行了训练,将氨基酸序列作为输入,并输出按可能性排序的酶功能列表(EC数)。
CLEAN 的对比学习框架
研究人员将 CLEAN 与六种最先进的 EC 数字注释工具进行比较,系统地研究了 CLEAN 的预测性能。通过计算验证,尽管不是每一个酶功能都能被CLEAN正确预测,但相对其他几种方法,CLEAN准确率更高。
CLEAN 与最先进的 EC 预测工具的定量比较
实验进一步验证了CLEAN算法的可行性。研究人员使用CLEAN算法对卤代酶进行酶功能分类的预测。卤代酶越来越多地用于生物催化CH官能团化 ,由卤代酶产生的具有卤素原子的小分子通常具有良好的生物活性和理化性质,从而在医药和农业领域拥有广泛的应用。
结果显示,CLEAN算法比其他六种常用计算工具表现更好。在使用CLEAN算法对36个卤素酶进行分类时,发现部分酶的分类存在问题,CLEAN算法提出新的酶功能分类并得到验证。研究表明CLEAN算法在酶功能分类方面表现出色,尤其在识别具有相似结构但不同功能的酶这一方法比其他方法更为优越。
36 种已识别卤化酶的 EC 准确度
该团队计划扩展 CLEAN 背后的 AI,用于表征其他蛋白质,例如结合蛋白。并希望进一步开发机器学习算法,以便用户可以搜索所需的反应,而 AI 会指出适合该工作的酶。
“目前有很多未表征的结合蛋白,比如受体和转录因子,我们也想预测它们的功能,”赵教授提到,“我们想要预测所有蛋白质的功能,以便能了解细胞中所有蛋白质,更好地研究或设计整个细胞,用于生物技术或生物医学应用。”
原文链接:
https://www.science.org/doi/10.1126/science.adf2465