【论肿道麻】Lancet子刊:一个针对老年重症监护室患者的机器学习病情严重程度评估模型: 一项有亚组偏移评估的多中心研究
时间:2024-10-20 06:03:03 热度:37.1℃ 作者:网络
重症监护病房(ICU)患者群体老龄化是一个新兴问题。衰弱老年患者与年轻成人相比,死亡风险更高。及时识别、干预和升级护理对有临床恶化征象的老年患者改善患者结局和安全性至关重要。常用于ICU中评估疾病严重程度的评分包括急性生理与慢性健康评分(APACHE)、简化急性生理评分(SAPS)、序贯器官衰竭评估(SOFA)、和牛津急性疾病严重程度评分(OASIS),都是为一般成人患者设计的,而非专门针对老年患者,不能准确评估老年患者的疾病严重程度。2023年8月杂志《Lancet Digit Health》(IF:23.8)上发表了一篇名为《Illness severity assessment of older adults in critical illness using machine learning (ELDER-ICU): an international multicentre study with subgroup bias evaluation》的研究。作者利用多中心的电子健康记录数据,通过机器学习开发、校准、验证和评估了一种死亡率预测模型,用于帮助临床医生评估疾病严重程度并预测老年患者在ICU中的住院死亡率。作者主要研究了与老年相关的因素,包括营养状况、活动状态、合并症和抢救意愿等,检查了这些因素的特征重要性,并通过按年龄、性别和种族的亚群中的分辨力和校准性能来评估模型偏倚。
方法
研究设计
作者进行了一项回顾性队列研究,使用老年患者在ICU第一天的电子健康记录数据。研究设计包括五个步骤:开发、校准、验证、亚组偏差评估和解释。作者首先使用训练数据集开发预测模型。之后,使用较小的验证队列对模型进行校准。接下来,作者进行了内部验证、使用更近期数据的时间验证以及使用来自不同国家多家医院数据的外部验证。作者将模型性能与其他机器学习算法和现有的疾病严重程度评分进行了比较。接下来,作者基于年龄、性别和种族定义的多个亚组进行了偏差评估。最后,作者通过检查与预测更高疾病严重程度相关的因素来评估模型的可解释性。
数据来源
作者使用来自美国和荷兰的四个公开访问的去标识ICU数据集:来自2001年至2019年贝斯以色列女执事医疗中心的医学信息重症监护数据库v1.4(MIMIC-III CareVue)和MIMIC-IV v1.0、来自2014年至2015年美国的eICU协作研究数据库v1.2(eICU-CRD),以及来自2003年至2016年阿姆斯特丹大学医疗中心的阿姆斯特丹UMC数据库v0.1。MIMIC-III和MIMIC-IV数据库包含83,395名患者,共有104,422次医院入院和113,873次ICU入院。本研究中将MIMIC-III和MIMIC-IV合并为一个组合MIMIC数据库。eICU-CRD包含来自美国中西部、东北部、南部和西部的208家医院的ICU数据。阿姆斯特丹UMC数据库包含来自阿姆斯特丹大学医疗中心的20,127名患者和23,172次ICU入院。
纳入和排除标准
本研究纳入了年龄超过65岁的老年患者。如果一名患者有多次ICU入院,则仅纳入第一次入院。作者排除了在ICU停留时间少于24小时、缺失年龄或结局数据,或在ICU第一天缺失基本观察记录(包括心率、呼吸频率、平均血压、收缩压、格拉斯哥昏迷量表评分、体温和血氧饱和度)的患者。对三个数据库使用了相同的纳入和排除标准,唯一的例外是阿姆斯特丹UMC数据库仅纳入了年龄超过70岁的患者,因为该数据库中无法获得患者的确切年龄。作者使用2001年至2016年的MIMIC数据和来自13家医院的eICU-CRD数据作为开发集。该数据集用于开发、校准和内部验证模型。剩余的2017年至2019年MIMIC数据用作时间验证集。eICU-CRD中剩余的169家医院和阿姆斯特丹UMC数据库中的所有患者用作外部验证集,以评估模型在美国和欧洲外部人群中的普遍可适性。
变量和特征
作者纳入了六种类型、共53种在患者ICU住院的第一天观测到的变量。这些包括基本信息、身体衰弱状况、实验室检查、生命体征、治疗和尿量。如果实验室结果和生命体征的极端异常值在生理上不可能出现,则将其移除。作者为实验室检查、生命体征和尿量计算了统计特征。为了降低维度,作者根据临床解释,在ICU入院的第一天对每个变量使用最差值,这可以是最大值、最小值、平均值或总和中的一个或组合。作者使用链式方程多重插补方法,配合轻量梯度提升机,针对训练集进行训练,用于估算缺失变量的值。
共纳入了60种特征。基本信息包括年龄、性别、BMI、入院类型(紧急或非紧急)、ICU前住院天数和查尔森合并症指数(CCI)。身体衰弱状况的测量包括最佳活动状态(如卧床、坐或站)和老年营养风险指数(GNRI)。实验室检查包括碱性磷酸酶、丙氨酸氨基转移酶、阴离子间隙、天冬氨酸氨基转移酶、剩余碱、碳酸氢盐(最小值和最大值)、胆红素、血尿素氮(BUN)、尿素氮肌酐比、氯、肌酐、估算肾小球滤过率、葡萄糖、血细胞比容、国际标准化比值、乳酸、淋巴细胞(最小值和最大值)、镁、中性粒细胞、中性粒细胞-淋巴细胞比、氧分压、二氧化碳分压、氧分压与吸入氧浓度比(根据患者是否使用机械通气分别表示)、血小板计数、钾、凝血酶原时间、部分凝血活酶时间、钠和白细胞计数。生命体征包括心率、呼吸频率、平均血压、收缩压、血氧饱和度、吸入氧浓度、体温、休克指数(心率除以收缩压)、格拉斯哥昏迷量表评分和第一天总尿量。治疗变量包括抢救意愿(全力抢救或接受部分抢救措施[不要复苏、不要插管、舒适护理])、多巴酚丁胺、多巴胺、肾上腺素、去甲肾上腺素和机械通气。作者还纳入了活动状态和代码状态的缺失指示器。
图1. (A) MIMIC. (B) eICU-CRD. (C) AmsterdamUMCdb.作者将MIMIC数据集中2001年至2016年的患者和eICU-CRD 13家医院的患者合并为一个开发集。其余169家eICU-CRD医院合并为外部验证集(美国)。来自阿姆斯特丹umcdb的完整队列被用作外部验证集(欧洲)。MIMIC(2017-2019)的剩余患者作为时间验证集。(D)老年死亡率预测模型的特点及老年ICU的变量类型。
模型开发和性能
从开发集中,作者随机选择40,293(80.0%)名患者来训练模型和调优超参数,5036(10.0%)名患者来校准模型,如下所述剩余的5037(10.0%)名患者用于内部验证。作者使用了四种机器学习算法来开发模型:逻辑回归、随机森林、朴素贝叶斯和极端梯度提升(XGBoost)。XGBoost算法是一种高效的集成算法,使用多个决策树。通过贝叶斯优化获得最佳超参数。作者尝试了三种方法来处理类别不平衡问题:过采样、欠采样和使用正权重。
用作基准的五个临床严重程度评分是SOFA(序贯器官衰竭评估)、SAPS(简化急性生理评分)、OASIS(牛津急性疾病严重程度评分)、APACHE IV(急性生理学和慢性健康状况评估)和Acute Physiology Score III(急性生理学评分第三版)。作者使用了八种评估指标:接收者操作特征曲线下的面积(AUROC)、精确度-召回率曲线下的面积(AUPRC)、灵敏度、特异性、准确性、精确度、阴性预测值和F1分数。作者选择AUROC和AUPRC作为判别力评估指标。作者在内部验证集、外部验证集和时间验证集上比较了四种机器学习算法和五种临床评分的性能。作者还比较了包含特征子集的简化模型的性能。
校准和亚组偏差评估
由于四个研究队列中的死亡率不同,作者使用带有三重交叉验证的同调回归算法对预测模型进行校准,以获得与真实发病率概率更相关的风险概率。作者从外部验证(美国)中随机抽取10.0%的样本,从外部验证(欧洲)和时间验证队列中随机抽取20.0%的样本进行模型校准。作者在所有四个研究队列中比较了重要人口统计学亚组(包括性别[男性和女性]、年龄[年轻老年[65-79岁]和老年[80岁以上]]和种族[亚洲人、黑人、西班牙裔和白人])的模型性能。校准性能通过标准化死亡率比(SMR)、布里尔分数和校准曲线进行评估。标准化死亡率比是研究人群中观察到的死亡数与预期死亡数的比率。
模型解释和个体分析
SHapley Additive exPlanations(SHAP)方法提供了机器学习模型的可解释输出。这是一种模型无关的方法,通过测量局部特征交互来提供对机器学习模型的全局理解,具有局部准确性、缺失性和一致性的特征。作者使用SHAP算法来解释预测模型的特征重要性和风险预测因子的非线性交互。计算SHAP值来解释输入特征是否与输出具有正相关或负相关。
统计分析
汇总统计数据以中位数(IQR)和百分比(%)表示。使用Student's t检验或Wilcoxon符号秩检验比较连续变量,使用χ²检验或Fisher精确检验比较分类变量。双侧p值小于0.05被认为具有统计学意义。作者使用带有500次重采样的自助法来获取预测概率,并计算判别指标(AUROC和AUPRC)、校准评估指标(SMR和布里尔分数)以及其他六个性能测量指标(灵敏度、特异性、准确性、精确度、阴性预测值和F1分数)的95%置信区间。所有统计分析均使用Python(版本3.6.5)和R(版本4.1.1)进行,分别使用了tableone、sklearn、pyroc和miceforest包以及ems和forestplot包。
结果
所有四个队列中的非存活患者年龄更大、BMI更低、CCI评分更高、绝对卧床比例更高、GNRI更低、接受机械通气的比例更高、接受部分抢救措施(如不进行心肺复苏或插管、只进行姑息治疗)的比例更高、血管活性药物使用更多。他们还具有更高的临床评分、更长的ICU住院时长以及更短的住院时长,与存活患者相比,除外部验证(欧洲)队列中的BMI和时序验证队列外,所有差异均具有统计学意义。
开发队列被随机分成训练集(n=40,293)、校准集(n=5,036)和内部验证集(n=5,037)。外部验证(美国)集(n=20,541)来自美国多个中心,外部验证(欧洲)集(n=2,411)来自阿姆斯特丹大学医学中心,时序验证集(n=4,311)来自贝斯以色列女执事医疗中心。所有三种处理类别不平衡的方法均导致性能略有下降;因此,后续研究使用了原始数据。作者选择AUROC及其95% CI和p值来评估四个研究队列中机器学习模型和临床评分的判别能力。在所有验证队列中,XGBoost算法的性能均显著优于其他机器学习算法和临床评分(图2)。XGBoost的AUROC分别为:内部验证集0.866(0.851–0.880),外部验证(美国)集0.838(0.829–0.847),外部验证(欧洲)集0.833(0.812–0.853),时序验证集0.884(0.869–0.897)。通过比较Brier分数、SMR和校准曲线,XGBoost与其他模型和评分相比具有最低的概率偏差。因此,作者选择XGBoost模型作为最终模型。
图2. 预测性能:四种验证类型中机器学习模型与临床评分的区别比较
在图3作者展示了外部验证(美国)集中XGBoost模型的性能,并进行了三种类型的亚组分析。尽管在老年患者和女性患者中,AUROC略低于总体队列,但其中位AUROC仍高于0.81(图3A)。外部验证(美国)集中SMR的森林图如图3B所示。整体值为0.99(0.96–1.03),与真实结果相比,所有亚组中均未发现显著预测偏差。
图3. 基于年龄、性别和种族亚组分析的偏倚评价
图4A显示了前20个死亡风险预测因子的图表。这些包括最低GCS评分、总尿量、平均呼吸频率、机械通气使用、活动状态(卧床)、CCI评分、GNRI、抢救意愿(接受部分抢救措施)、年龄、最高BUN、ICU入院前住院时长、平均心率、最高阴离子间隙、最低血氧饱和度、BUN:肌酐比值、休克指数、平均体温、最低血小板计数、最高乳酸和天冬氨酸氨基转移酶。这些变量的平均重要性如图4B所示。
为了说明模型的可解释性,图4C和4D显示了两位患者(一位非存活患者和一位存活患者)的院内结果的SHAP图。作者训练了ELDER-ICU模型,使用大型多中心数据集(来自14家医院)的ICU入院首日观察数据来预测院内死亡率。校准后的模型在外部验证和时序验证中均表现出良好的性能。ELDER-ICU模型(AUROC 0.833–0.884)在统计上显著优于其他三种机器学习算法和五种传统临床严重程度评分(AUROC 0.662–0.818)以及最近的全球开源疾病严重程度评分(AUROC 0.817)。该模型在所有重要的人口统计学亚组中均表现良好,并且得到了很好的校准。当作者仅分析包含20个特征的模型性能(ELDER-ICU-20)时,XGBoost算法在外部验证中仍比包含142个特征的APACHE IV表现出更好的性能。使用较少数量的预测因子进行准确预测使模型在临床环境中更加实用。在前提条件满足的情况下,ELDER-ICU经过前瞻性评估和当地人群中的重新校准后,可以协助临床医生识别需要更多或更早关注的老年ICU患者。由于最终模型显示出良好的校准特性,它还可用于识别病情严重程度相似的患者以供后续研究。最后,结合SHAP图等可视化工具使用模型可以帮助临床医生识别导致病情严重程度的特定成分,并帮助指导对多种合并症复杂患者的管理。
图4. 老年死亡率预测模型的解释
讨论
在这项观察性多中心研究中,作者开发、校准并评估了ELDER-ICU模型,该模型使用老年患者入住重症监护室(ICU)第一天的观察数据来预测其死亡率。ELDER-ICU模型(AUROC 0.833–0.884)在统计上显著优于其他三种机器学习算法和五种传统临床严重程度评分(AUROC 0.662–0.818),以及最近的全球开源疾病严重程度评分(AUROC 0.817)。该模型经过良好校准,并在重要的人口统计学亚组中得到了很好的泛化。当作者仅分析包含20个特征的模型性能(ELDER-ICU-20)时,XGBoost算法在外部验证中仍然优于包含142个特征的APACHE IV。使用较少预测因子的准确预测使得该模型在临床环境中更加实用。在经过必要的前瞻性评估和当地人群中的重新校准后,ELDER-ICU可以协助临床医生识别需要更多或更早关注的老年ICU患者。作为最终模型显示出良好的校准特性,它还可以用于识别病情严重程度相似的患者以供后续研究。最后,使用带有可视化辅助工具(如SHAP图)的模型可以帮助临床医生识别导致病情严重程度的特定因素,并指导管理患有多种并存疾病的复杂患者。
在作者的研究过程中,作者注意到了现有研究中存在的一个显著问题:尽管有32%的研究是多中心的,但这些研究都局限于同一个国家,这限制了模型的普适性和泛化能力。为了克服这一局限,作者在ELDER-ICU模型的开发过程中采取了多中心开发数据集、国际多中心外部验证集、模型校准以及全面的偏倚评估等措施,旨在提高ELDER-ICU模型的普适性、泛化能力和准确性。这些努力不仅有助于临床医生更好地评估老年ICU患者的疾病严重程度,还能为后续的研究提供可靠的工具 。
论肿道麻 述评
在《Lancet Digit Health》上发表的这篇关于ELDER-ICU模型的研究,标志着作者在老年危重病医学领域迈出了重要的一步。随着全球人口老龄化的加剧,ICU中老年患者的比例不断上升,这使得对老年患者的病情评估和管理变得尤为重要。传统的病情严重程度评分系统虽然在临床实践中广泛应用,但往往未能充分考虑老年人特有的健康问题,如共病、身体虚弱和认知功能下降等因素,这限制了它们在老年患者中的预测准确性。
本研究开发的ELDER-ICU模型通过使用机器学习技术,能够更准确地预测老年患者入住ICU后的死亡风险。研究团队采用了国际多中心的数据,不仅提高了模型的泛化能力,也使得研究结果更具全球代表性。值得注意的是,该研究不仅关注了模型的准确性,还特别强调了模型的可解释性和潜在偏差的评估,这一点在当前的人工智能研究中尤为重要。
研究中使用的XGBoost算法在多个验证集上均显示出优越的性能,其预测准确性(以AUROC表示)显著高于传统的临床评分系统和其他机器学习算法。此外,研究还开发了一个简化版的ELDER-ICU-20模型,仅使用20个最重要的特征,便能达到与完整模型相近的预测性能,这使得模型在临床应用中更为便捷。在模型的解释性方面,通过SHAP值的分析,研究揭示了老年患者死亡风险预测中最重要的因素,如最低的格拉斯哥昏迷评分、总尿量、平均呼吸频率等,这些因素的识别有助于临床医生更好地理解老年患者的病情,并可能指导未来的治疗策略。
尽管该研究在方法学上表现出色,但仍存在一些局限性。首先,作为一个回顾性研究,其结果需要在前瞻性研究中进一步验证。其次,尽管研究使用了多中心的数据,但模型的外部有效性和在不同人群、不同医疗环境中的适用性仍需进一步考察。此外,研究主要关注了短期的住院死亡率,对于长期预后的预测能力尚未明确。
总体而言,这项研究为老年危重病医学领域提供了一个有力的工具,有望改善老年患者的临床评估和管理。随着人工智能技术的不断进步,我们期待未来能有更多创新的研究,以进一步提高老年患者的临床预后和生活质量。
参考文献:
Liu X, Hu P, Yeung W, Zhang Z, Ho V, Liu C, et al. Illness severity assessment of older adults in critical illness using machine learning (ELDER-ICU): an international multicentre study with subgroup bias evaluation. Lancet Digit Health. 2023;5(10):e657-e67.