Nat Commun:王建新/罗峰/肖传乐建立甲基化检测新算法,可利用HiFi测序准确检测基因组单倍型5mC

时间:2023-07-19 23:25:31   热度:37.1℃   作者:网络

DNA甲基化作为表观遗传的一种重要形式,在染色质结构和组织水平上的生物过程中起主要作用。近年来三代测序技术(牛津纳米孔测序和PacBio单分子实时测序)的迅速发展为DNA甲基化,尤其是为DNA 5mC的检测带来了新的机遇。纳米孔测序中的电信号和单分子实时测序中的荧光信号都会受到碱基表观遗传变化的影响,因此两种测序技术都能够直接用来检测DNA甲基化修饰,不需要设计额外的生物实验。此外,三代测序具有读数长优势,可更全面地解析基因组甲基化。

基于单分子实时测序技术,PacBio公司进一步提出了HiFi测序技术,采用循环共识测序策略进行测序,大大提高了测序读数的准确性。PacBio HiFi测序技术已在基因组组装、SNP检测等方面得到了广泛应用,极大地推动了基因组学的发展。然而由于其测序信噪比相对较低,与纳米孔测序技术相比,PacBio HiFi测序技术并未在DNA甲基化检测方面得到较好的应用。

近日,中南大学计算机学院王建新教授、美国克莱姆森大学计算机学院罗峰教授和中山大学中山眼科中心肖传乐副研究员Nature Communications上在线发表题为“DNA 5-methylcytosine detection and methylation phasing using PacBio circular consensus sequencing”的研究论文,基于PacBio HiFi测序技术,提出了可准确检测全基因组单倍型5mC的方法和流程,并开发了相应的软件ccsmeth和ccsmethphase。中南大学生命科学学院、湘雅医院李津臣教授团队为该研究提供了重要数据支持。

图片

文章发表在Nature Communications

在PacBio HiFi测序过程中,碱基的测序信号宽度(PW)和测序时间间隔(IPD)可以用来识别位点甲基化状态。然而,HiFi测序有效信号变化微弱,且现有基于卷积神经网络的方法并未充分提取有效信号特征,导致现有方法5mC检测准确率相对较低。针对该问题,研究团队利用注意力机制和BiGRU构建深度神经网络模型提取HiFi测序数据中的信号特征,在单分子水平考虑了5mC甲基化位点的对称特性(图1b),在基因组位点水平考虑了甲基化位点在基因组上的聚集特性(图1c),提升了5mC检测的准确度。

图片

图1. ccsmeth方法框架图

随后,研究团队在单分子水平对ccsmeth进行了测试。如图 2所示,ccsmeth在所有8个数据集上的预测性能都优于已有方法。在M01&W01、M02&W02和M03&W03三个数据集上,ccsmeth的预测准确度分别为0.9232、0.8788和0.8765,比现有方法高出3.7%-5.4%。由于这三个数据集序列长度均小于10 Kb,研究团队进一步收集了序列长度为10-24 Kb的测序数据集进行测试。结果表明,在长序列数据集上,ccsmeth取得了0.8721-0.9062的预测准确度,比已有方法高>4%

图片

图2. 单分子水平上ccsmeth的5mC检测性能评估

研究团队进一步在基因组位点水平对ccsmeth进行了评估。团队将5个长序列HiFi测序数据集随机采样,在不同覆盖度条件下将ccsmeth的预测结果与二代亚硫酸氢盐测序以及三代纳米孔测序的预测结果进行了比较(图3)。实验结果表明,ccsmeth比现有方法获得了与亚硫酸氢盐测序以及纳米孔测序更高的相关性。特别是在低覆盖率下,ccsmeth具有更大的优势。例如在HG002样本上的测试表明,仅用15× HiFi序列读数,ccsmeth即获得了与亚硫酸氢盐测序>0.90的相关性,而现有方法在25×时才达到>0.90。ccsmeth在3个HG002数据集上的预测结果也相互高度相关(相关性>0.9344),这表明ccsmeth具有良好的结果可重现性。

图片

图3. 基因组位点水平上ccsmeth的5mC检测性能评估

在ccsmeth的基础上,研究团队进一步设计了单倍型5mC甲基化检测流程,并基于Nextflow框架开发了相应软件ccsmethphase。在该流程中,研究团队使用pbmm2进行序列比对,使用Clair3和Whatshap进行SNV检测和分型,使用DSS进行单倍型差异甲基化位点和区域检测(图4a)。实验结果表明,ccsmethphase能够准确检测出已知印记区域的甲基化差异(图4b)。此外,利用ccsmethphase检测出的单倍型差异甲基化区域与其他测序技术的检测结果(图4c-d)以及已知印记区域(图4e)也高度重合。由此可得出,ccsmethphase可准确检测全基因组单倍型差异甲基化。

图片

图4. 利用ccsmethphase检测全基因组单倍型5mC

与二代测序相比,HiFi测序具有更长的读数,从而可以对人类基因组中更多的CpG位点进行甲基化分析。研究团队利用HG002数据,进一步系统分析了人类基因组,特别是在高度重复区域中被HiFi数据覆盖的CpG位点数量(图5)。使用15× HiFi读数,人类基因组中96.9%(3,285万)的CpG位点可被检测到,检测数量多于使用117.5×二代测序读数覆盖的位点数量。使用二代测序,人类基因组中仅有27.1%(858万)的CpG位点可以被分到两个单倍型。而使用HiFi测序读数,人类基因组中85.2% (2697万)的CpG位点可被分型。这进一步证明了HiFi长读数测序在5mC甲基化检测和分型上的巨大优势

图片

图5. HiFi测序检测/分型CpG数量比较与分析

综上所述,研究团队提出了基于HiFi测序技术的5mC检测方法ccsmeth以及单倍型甲基化检测流程ccsmethphase。在不同数据集上的测试结果表明,所提出方法可在单倍型、单分子、单碱基水平准确检测DNA 5mC。该成果证明HiFi测序技术可准确检测DNA 5mC甲基化,为研究人员探索基因组学和表观遗传学提供了方法和工具支持,可促进对基因组表观遗传机制更深入全面的理解。

 

参考文献:

Ni, P., Nie, F., Zhong, Z.et al. DNA 5-methylcytosine detection and methylation phasing using PacBio circular consensus sequencing. Nat Commun 14, 4054 (2023). 

https://doi.org/10.1038/s41467-023-39784-9

上一篇: 一文读懂:丝带肋骨征

下一篇: 巨大甲状腺、气管极度狭窄麻醉一例


 本站广告