Nat Genet:精确度提高6倍!新模型可更精准的预测异常剪接,助力罕见病诊断

时间:2023-07-10 21:09:35   热度:37.1℃   作者:网络

识别非编码功能丧失(loss-of-function)的DNA变异是全基因组数据解析中的一个重要瓶颈,因为预测编码区域之外的功能变化非常困难。能够改变剪接的变体是一类重要的非编码功能丧失变体,它们可以导致RNA异构体(isoform)发生巨大改变,造成基因的功能丧失。

异常剪接是遗传疾病的一个主要原因,但异常剪接在转录组中的直接检测仅限于临床可采集到的组织,例如皮肤或体液。虽然基于DNA的机器学习模型可以筛选出影响剪接的罕见变异,但它们在预测组织特异性异常剪接方面的性能仍未经过评估。

近期,德国慕尼黑工业大学的研究团队在Nature Genetics发表了题为“Aberrant splicing prediction across human tissues”的研究文章。研究团队构建了一个异常剪接预测模型AbSplice,可以预测在任何给定的人体组织中,罕见的变异是否与异常剪接有关。AbSplice模型可以纳入DNA和RNA数据。在相同的召回率下,基于DNA的模型将精确度提高了3倍,基于RNA测序数据的模型将精确度提高6倍。新的预测模型可以更准确地识别罕见遗传疾病和癌症的遗传原因,极大地促进了非编码功能丧失变异识别和遗传诊断方法的设计和分析。

图片

文章发表在Nature Genetics

图片

图1. 研究设计和主要发现。

首先,研究人员生成了一个异常剪接基准数据集,涵盖来自GTEx数据集49种人体组织中的超过880万个罕见变异。随后,研究团队评估了两个最先进的基于序列的深度学习模型的性能:MMSplice和SpliceAI。在20%的召回率下,MMSplice的总体精确度为8%,SpliceAI的总体精确度为12%。

精确度和召回率是预测模型有效性的重要指标。精确度表明模型预测的遗传变异有多少实际上导致了不正确的剪接。召回率表明有多少基因变异导致的不正确剪接是由模型恢复的。

研究人员注意到,不准确的基因组注释导致了许多错误的预测。为了解决这些问题,研究人员使用GTEx RNA-seq数据创建了一个组织特异性剪接位点图谱,将其命名为SpliceMap。SpliceMap排除了每个组织的未转录剪接位点和内含子,包括了在同一组织样本中可重复观察到的未注释剪接位点和内含子。当把MMSplice应用于由SpliceMap定义的组织特异性剪接位点时,在20%的召回率下,MMSplice的精确度得到了提高(图2e),SpliceAI的精确度提高到22%。

图片

图2. 组织特异性剪接位点的比对提高了预测性能

为了利用MMSplice和SpliceAI预测的互补性,研究人员使用深度学习模型的得分以及组织特异性SpliceMap的注释特征训练了一个广义模型AbSplice-DNA,在相同的召回率下,该模型精确度提高了3倍。此外,在全部所研究的异常结果类别中,AbSplice-DNA的表现优于所有其他模型(图3)。

图片

图3. 定量剪接水平进一步提高了预测性能

在建立模型后,研究人员在独立队列中评估了其性能的重现。利用来自303名疑似罕见线粒体病患者的皮肤成纤维细胞RNA-seq样本分析发现,与其他模型相比,AbSplice-DNA提供的预测候选变异列表更短,有助于罕见病诊断。此外,研究人员还将AbSplice-DNA应用于203,306,868个罕见变异(MAF<0.1%),证明了AbSplice-DNA的稳健性和适用性,并表明其在罕见病诊断和罕见变异注释中的实用性。

图片

图4. AbSplice DNA在独立数据上的应用

接下来,研究团队还训练整合了AbSplice-DNA特征和基于RNA-seq CAT特征的模型,称之为AbSplice-RNA,优于所有其他模型。研究发现,使用成纤维细胞可获得与使用所有临床可及组织相同的性能,在20%的召回率下,AbSplice-RNA达到约60%的精确度,比AbSplice-DNA提高了两倍(图5c),这些提升在靶组织中均已被观察到(图5d)。

图片

图5. 整合临床可及组织的RNA-seq数据预测难以获取组织中的异常剪接

总之,该研究将异常剪接的直接检测与基于DNA的预测模型相结合,以预测目标组织中的异常剪接。与已有的模型相比,新开发的模型能够将预测错误剪接的精确度提高6倍。在召回率为20%的情况下,以前的算法达到了10%的精度,新开发模型达到了60%的精确度。此外,当纳入综合模型时,临床可及组织的RNA-seq补充了基于DNA的剪接预测。

文章作者、德国慕尼黑工业大学Holger Prokisch博士表示:“使用既定的DNA分析方法可以对大约一半的患者做出可靠的诊断。因此,我们需要改进预测的模型。该研究新开发的算法可以对此做出重要贡献。”

文章通讯作者、德国慕尼黑工业大学Julien Gagneur教授表示:“我们通过组织特异性的方式观察剪接过程,并使用血液或皮肤细胞等易于获取组织的直接剪接检测值,来预测心脏或大脑等难以获取组织中的剪接错误,从而在精度上取得了巨大进步。”

参考资料:

1.Wagner, N., Çelik, M.H., Hölzlwimmer, F.R. et al. Aberrant splicing prediction across human tissues. Nat Genet 55, 861–870 (2023). https://doi.org/10.1038/s41588-023-01373-3

2.Study: Novel algorithm 6 times more reliable at predicting defective RNA

https://medicalxpress.com/news/2023-06-algorithm-reliable-defective-rna.html

上一篇: BOC/BOA—马军教授:以患者为中心,...

下一篇: 眼眶的“泪滴征”


 本站广告