Nat Commun:复旦大学郁金泰/程炜/冯建峰团队揭示血浆蛋白质组谱可用于预测个体的未来健康风险

时间:2024-01-26 19:26:46   热度:37.1℃   作者:网络

 导 读 

风险分层对于识别高危个体和疾病预防至关重要,但对人类疾病的全面风险评估往往需要大量的预测因子。由于收集信息所涉及的时间和成本,每种疾病的风险评分在临床实际应用中受到了严重限制。因此,一种能够同时预测多种疾病风险的检测方法至关重要。

人类血液蛋白质组谱通过对数千种分子的无偏颇评估,整合遗传、生活方式、环境的影响和相互作用,可提供人类健康状况的整体解读。迄今为止,大多数基于蛋白质组学的预测研究都是以横向方式进行的,部分研究利用病例对照的方法来了解健康人群和患者之间的血浆蛋白质组差异,但这类研究未能在疾病发作前识别出蛋白质组特征。

近日,复旦大学郁金泰、程炜、冯建峰团队在Nature Communications发表了题为“Plasma proteomic profiles predict individual future health risk”的文章,探索了蛋白质组谱在预测多种疾病和死亡风险方面的潜力。基于52006名英国生物银行(UKB)参与者的1461个Olink血浆蛋白检测数据,研究团队开发了疾病/死亡特异性蛋白质组学风险评分(ProRS),可显著地将45种疾病进行风险分层。研究显示,ProRS在10个终点(如癌症、痴呆和死亡)上的识别准确率很高,其预测性能比现有的临床指标好得多或相当。研究团队将临床预测因子与ProRS相结合可提高大多数终点的预测能力,并广泛地探索了蛋白质组谱的预测性能。此外,研究人员还探索了蛋白质组学在多种突发疾病和死亡率中的临床应用。

图片

文章发表在Nature Communications

主要研究内容

该研究纳入了UKB 52006名参与者的1461血浆蛋白质组数据,涉及54个临床预测指标,涵盖人口统计学、生活方式、体格检测、医疗和用药史、家族史和血清分析。研究团队开发了一个蛋白质组神经网络,为每个终点生成ProRS。使用Cox比例风险模型进行下游生存分析,以单独或联合探索ProRS和临床预测因子集。通过内部留一区域交叉验证进行模型建立和评价。

图片

图1. 整体研究模式图

ProRS将多种疾病的风险和死亡率进行分层

该队列中位随访时间14.1年,其中5625名参与者死亡,7654人罹患癌症,最常见的疾病类型是高血压和贫血。ProRS是基于ProNNet模型从1461个血浆蛋白质组数据的分析得到的。ProNNet作为一个特征提取器,将蛋白质组数据转换为45个矢量化概率的列表,命名为ProRS,每个概率被视为45个终点的未来事件风险,包括不同类别的疾病和死亡率(图1)。

基线时ProRS百分位较高的参与者,在所有14种疾病类别和全因死亡率中均表现出较高的事件发生率(图2a)。在所有45个终点中,年龄与ProRS显著正相关。除肥胖和乳腺癌外,ProRS与年龄的相关系数均超过0.1,其中眼科疾病、癌症和循环系统疾病的相关性最强。除前列腺癌、乳腺癌和炎症性肠病外,在42个终点中男性和女性的ProRS评分存在显著差异。此外,在相同ProRS百分位的个体中,与女性相比,男性患癌症、循环系统疾病和全因死亡率的风险显著升高。

Kaplan-Meier生存曲线显示了由ProRS分层的三分位之间的不同结果(图2b),底层人群相比,上层人群中有ProRS的个体全因死亡率、血液和免疫疾病的风险增加了5倍多。相比之下,皮肤疾病和消化系统疾病的OR(优势比)要小得多。值得注意的是,呼吸系统死亡、痴呆、循环系统死亡、糖尿病、肥胖等疾病的OR均超过了20。研究团队还分析了ProRS在不同时间窗口的预测能力,对于大多数预测终点,当预测5年内发生的结果时,ProRS实现了最高的ROC曲线下面积(AUC),表明血浆蛋白质组学在检测近期风险中发挥了关键作用

图片

图2. ProRS与观测到的事件发生率有关,并可对多种疾病的生存率进行分层。

接下来,研究人员探讨了ProRS和3个临床预测因子集(年龄+性别、25个血清指标、含有54个临床预测因子的PANEL)的预测性能。结果发现,纯蛋白模型,即仅与ProRS拟合的Cox比例风险(CPH)模型,在全因死亡率、两种死亡原因(呼吸系统和循环系统)和7种特定疾病(糖尿病、肺癌、前列腺癌、痴呆、肥胖、慢性阻塞性肺病和肾衰竭)方面得出的C指数(即一致性指数,用来评价模型的预测能力)大于0.80。单独ProRS比年龄+性别、血清指标和54因子PANEL具有更大或相当的鉴别性能。

此外,在特定疾病方面,ProRS显著优于所有三组临床预测指标,包括五种疾病类别(感染疾病、血液和免疫疾病、神经系统疾病、呼吸系统疾病和泌尿生殖系统疾病)、七种特定疾病(细菌和病毒感染、白血病、贫血、痴呆、心力衰竭和慢性阻塞性肺病)以及全因死亡率及其四种原因。这表明ProRS比三组临床预测指标包含更多有竞争力的预测信息。

图片

图3. ProRS与三种临床预测集预测价值对多种疾病的比较

当将ProRS纳入年龄+性别或血清模型时,几乎在所有终点都检测到预测能力的显著增强,但在大多数终点,组合并没有显著超过单独的ProRS。与血清和ProRS的组合相比,纯蛋白模型在预测乳腺癌、前列腺癌、白血病、痴呆、帕金森病、全因死亡率、神经系统死亡、循环系统死亡和呼吸系统死亡方面的辨别能力显著提高

蛋白质对疾病预测的贡献

研究团队根据血浆蛋白在预测不同终点中的重要性对其进行排序,以识别与每个条件相关的最重要的蛋白质。值得注意的是,GDF15在所有14类疾病和全因死亡率中都是一个强有力的预测因子,甚至在各种死亡原因和7种特定疾病(细菌感染、贫血、情绪障碍、心律失常、心力衰竭、炎症性肠病和肾衰竭) 中排名第一。此外,CDCP1、CXCL17、EDA2R和HAVCR1在超过10种疾病类别中显示出重要的预测价值,这些蛋白质与不同疾病之间的关联方向保持一致

图片

图4. 最具鉴别价值的蛋白质及其与每个终点的关联

模型校准和临床应用

ProRS在区分高危人群方面表现出色,但这些结果不能提示ProRS是否可用于临床实践。为了提供临床可解释性的统计数据,研究人员进一步通过检验校准和进行决策曲线分析来评估预测模型。除病毒感染外,几乎所有终点的模型都得到了很好的校准,其中观察到的风险和预测的风险显示出一致性

研究团队专门研究了ProRS在两种情况下的临床应用。首先,研究团队分别评估了ProRS和两组具有不同复杂性的临床预测因子(年龄+性别和PANEL)的表现。其次,将ProRS与这两组临床预测因子结合,以揭示潜在的独特价值。结果发现,对于大多数疾病,与仅基于年龄+性别或PANEL的模型相比,纯蛋白质模型显示出更大的价值。在年龄+性别或PANEL中添加ProRS显著提高了临床效用,但联合使用的效果与单独使用ProRS相似。此外,在一定的决策阈值范围内,与联合方法相比,ProRS显示出更高的预测价值。

图片

图5. ProRS模型校准和预测价值转化为潜在的临床应用

 结 语 

综上所述,通过训练神经网络,研究团队建立了一种疾病/死亡特异性蛋白质组风险评分 (ProRS),可对45种常见疾病的风险进行显著地分层,包括感染性疾病、血液疾病、内分泌疾病、精神病学疾病、神经病学疾病、循环系统疾病、呼吸系统疾病、消化系统疾病、皮肤疾病、肌肉骨骼疾病和泌尿生殖系统疾病、癌症等。值得注意的是,对于几乎所有的终点,ProRS都比现有的临床指标产生了更好或相当的预测性能。将临床预测因子与ProRS结合,对大多数终点的预测能力都有所增强,但与单独使用ProRS相比,该组合仅表现出有限的改善,并没有显示出比单独使用ProRS有实质性的优势。此外,研究团队还发现了一些蛋白,如GDF15,对各种疾病具有重要的鉴别价值。

该研究表明,蛋白质组谱可以作为复杂的实验室检测或临床措施的替代指标,以完善同时对多种疾病和死亡率的综合风险评估。当然,在临床应用之前,仍需要更多的独立外部验证来确认该研究发现。

参考资料:

You, J., Guo, Y., Zhang, Y. et al. Plasma proteomic profiles predict individual future health risk. Nat Commun 14, 7817 (2023). https://doi.org/10.1038/s41467-023-43575-7.

上一篇: Nat Commun:合成生物学领域突破...

下一篇: Cell:重要发现!人类ILC2细胞具有...


 本站广告