Genome Med:基于体细胞突变表征的深度神经网络模型MuAt,可预测肿瘤类型及亚型
时间:2023-08-09 13:31:51 热度:37.1℃ 作者:网络
导读
准确识别肿瘤组织学类型和分子亚型对于确定癌症诊断、预后和治疗选择至关重要。近年来,随着相关技术的不断发展,科研人员发现通过癌症基因组测序能够准确分类肿瘤和肿瘤亚型。此外,癌细胞中的体细胞突变是体细胞树中作用于其祖先的突变过程的结果,通过癌症基因组测序也可仔细检测癌症的体细胞突变,从而揭示其起源组织和分子亚型。
对于低体细胞突变负荷的肿瘤类型(如许多儿科肿瘤),癌症基因组测序的预测性能有限。例如,髓母细胞瘤是儿童期最常见的恶性脑肿瘤,其分子亚型主要有WNT、SHH、3型和4型等。其中,WNT-髓母细胞瘤的长期生存率为90%,但3型-髓母细胞瘤的长期生存率仅为40%。因此,针对癌症进行精准分型分期对治愈癌症具有重要意义。
近期,芬兰赫尔基辛大学分子医学研究所的研究人员在Genome Medicine上发了题为“Mutation-Attention (MuAt): deep representation learning of somatic mutations for tumour typing and subtyping”的文章。研究团队开发了一种新颖的深度神经网络(DNN)模型——“Mutation-Attention(MuAt)”,能够通过学习简单和复杂的体细胞突变表征,从癌症全基因组和全外显子组测序数据中预测肿瘤类型和亚型。此外,利用学习多模态数据嵌入,MuAt可整合单核苷酸和多核苷酸变异(SNV/MNV)、小片段插入或缺失(InDel)、结构变异(SV),以及这些主要基因突变的组合。与现有方法相比,MuAt可用于单个突变而不是整合所有突变计数,提高了模型的性能和可解释性。
文章发表在Genome Medicine
深度神经网络模型MuAt
据介绍,MuAt是一种深度神经网络(DNN)模型,其根据在单个癌症基因组中观察到的体细胞突变来预测肿瘤类型(图1)。该模型由三个连续的模块组成:在第一个模块中,突变被编码并嵌入到特征空间中,MuAt学习三种模态的特征嵌入,然后将其连接用作第二个模块的输入;在第二个模块中,注意力机制对可为预测肿瘤类型提供信息的突变对分配更多的权重,并为第三个模块计算输入特征;第三个模块将突变特征与完全连接的层结合起来,产生肿瘤水平的特征,用于计算模型的最终输出。
通过从注意力模块中提取的突变水平特征和从最后一个模块中提取的肿瘤水平特征,可对训练好的MuAt模型进行查询;此外,使用UMAP将后者投射到二维空间中,可用于发现肿瘤亚型。
图1. MuAt深度神经网络示意图。
MuAt对肿瘤分型的性能评估
研究团队使用来自全基因组泛癌症分析(PCAWG)的2,587个癌症全基因组和来自癌症基因组图谱(TCGA)的7,352个癌症外显子组(20种肿瘤类型)训练MuAt模型。结果显示,MuAt模型在预测肿瘤类型方面达到了较高的准确性。
在来自PCAWG的24种肿瘤类型中,MuAt的全基因组预测准确率为88.8%,SNV、MNV、InDel的基因位点组合获得了最佳的MuAt性能。对于难以预测的癌症类型(如具有MSI的肿瘤等),MuAt的性能也优于现有最先进的方法。在来自TCGA的20种肿瘤类型中,MuAt的外显子组预测准确率为64.1%,优于其他WES模型。此外,经良好校准后,MuAt模型在三个独立的全癌症基因组队列(共10,361个肿瘤)中也表现良好。
研究团队将MuAt与其他深度神经网络模型(DNN)进行了基准测试(图2b)。结果显示,MuAt的表现优于DNN模型,MuAt模型在PCAWG癌症基因组中实现了85.5%的准确度,在TCGA癌症外显子组中实现了62.8%的准确度。
图2. MuAt预测性能基准测试。
MuAt在分子水平上区分肿瘤亚型
研究团队通过UMAP将从PCAWG数据中学习到的特征投影到二维空间,探索了肿瘤水平的MuAt集合特征。结果显示,MuAt模型在预测肿瘤类型方面具有高性能,PCAWG中的肿瘤均按肿瘤类型形成聚类(图3)。接下来,为验证通过分类肿瘤类型而学习的MuAt特征能否提供组织学或分子亚型的信息,研究团队将MuAt特征的主成分与PCAWG肿瘤中已知或预测的驱动事件相关联。
在前列腺癌中,研究团队在其候选驱动基因SPOP中发现了与体细胞驱动事件相关的显著关联。12例具有SPOP突变的前列腺癌都聚集在MuAt特征的UMAP中,其体细胞SV是野生型肿瘤的2.3倍。在髓母细胞瘤中,依据UMAP特征图中可观察到四个亚群,其中一个亚群与成年患者的SHH激活髓母细胞瘤相对应,其突变形态主要由年龄相关的CpG>TpG替换为主。在皮肤黑色素瘤中,研究团队发现肢端黑色素瘤按MuAt特征聚类。在慢性淋巴细胞白血病中,MuAt可区分出具有体细胞突变模式的肿瘤,这种突变模式发生在B细胞的IGH基因重排过程中。特别地,在胰腺神经内分泌肿瘤(PanNET)中,研究团队发现聚类在MuAt特征空间的四名患者的MUTYH基因中存在胚系突变。
此外,研究团队还发现MuAt能够鉴定出因错配修复缺陷(MMR)而导致微卫星不稳定的肿瘤,以及突变负荷较高的肿瘤,特别是具有聚合酶ε和δ校对缺陷的肿瘤。
图3. 在PCAWG数据中的MuAt分型的UMAP图。
结 语
综上所述,研究团队开发了MuAt,这是一种深度神经网络模型,旨在从体细胞突变集合中预测肿瘤类型,同时学习肿瘤亚型的信息表示。与其他模型不同,MuAt集成了多种异质信息,例如突变类型、基因组位置和单个突变注释,而非将突变表示为聚合计数。与现有方法相比,MuAt可对单个突变进行重点研究,而不是将所有突变进行简单计数。此外,MuAt能够准确识别组织学肿瘤类型并识别肿瘤实体,有可能影响精准癌症医学。
参考文献:
Sanjaya, P., Maljanen, K., Katainen, R. et al. Mutation-Attention (MuAt): deep representation learning of somatic mutations for tumour typing and subtyping. Genome Med 15, 47 (2023). https://doi.org/10.1186/s13073-023-01204-4
https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-023-01204-4