【神麻人智】基于临床数据和术中生物信号的机器学习模型预测心脏手术后谵妄

时间:2025-04-05 12:12:08   热度:37.1℃   作者:网络

早期识别谵妄高风险患者对预防谵妄的发生至关重要。本研究旨在利用术中生物信号和临床数据,开发预测心脏术后谵妄的机器学习模型创新性地提出从持续监测的术中生物信号中提取关键特征的方法,这些特征能反映患者的整体状态、基线水平、术中所遭遇的不良状况及其严重程度以及数据的逐搏变异性beat-to-beat variability。基于1912例患者的回顾性数据,研究构建软投票集成机器学习模型,并随后在202例新增患者中开展前瞻性验证,结果表明该模型表现出色,其受试者工作特征曲线下面积达0.887,准确率为0.881。通过SHAP(SHapley Additive exPlanation)可解释性分析显示,多项术中生物信号特征具有较高重要性,表明术中患者管理对预防心脏术后谵妄具有关键作用。

引言

谵妄是一种急性神经认知障碍,以注意力、意识或认知功能的波动性紊乱为特征。术后谵妄是心脏手术后极为常见且严重的并发症,与显著功能衰退、术后并发症及死亡风险增加、住院时间延长和医疗费用上升密切相关。然而,由于缺乏特异性治疗手段,目前谵妄的管理策略仅集中于预防和早期识别。因此,风险分层和易感患者的识别至关重要。术后谵妄的发病机制具有多因素性,风险因素包括高龄和既存认知功能障碍。此外,术中变量(如脑灌注和麻醉深度)也与术后谵妄相关,但围术期因素的影响仍不明确,且目前尚未开发出整合术前临床数据和术中变量的综合预测模型。近期多项研究尝试利用人工智能(AI)预测术后并发症。随着VitalRecorder等软件的出现,存储和分析高分辨率生物信号数据已成为可能。AI技术能够挖掘隐藏信息及非线性关系,并对复杂、大规模数据进行高效分析。本研究基于围术期临床数据术中生物信号,旨在开发预测心脏术后谵妄的机器学习模型,并前瞻性验证其性能。

结果

数据集特征

本研究纳入大于19岁并接受心脏手术的患者(年龄≥19岁)。机器学习模型开发数据集采集时间为2018年12月14日至2021年12月22日,前瞻性验证数据集采集时段为2022年3月28日至6月28日(图1)

研究采用了全面的围手术期临床数据和术中生物信号数据进行机器学习模型的开发与验证。被认定为术后谵妄潜在预测因子并作为机器学习输入的具体临床变量列于表S1。针对持续监测的术中生物信号,我们从这些参数中提取特征作为机器学习模型的输入变量(表S2)。这些特征的设计和筛选旨在反映:患者的整体或基础状态(如平均值、基线值或最低值);术中不良状况的严重程度(如持续时间及曲线下面积低于或高于特定阈值);数据中的逐搏变异性(变异系数[coefficient of variation CV]和平均真实变异性[average real variabilityARV])

图片

患者筛选流程图如图1所示。研究共纳入2,179例成年患者,其中训练集和验证集1,969例,前瞻性验证队列210例。在排除62例(训练集和验证集55例,前瞻性验证队列7例)脑氧饱和度或脑电图(EEG)数据缺失的患者,以及3例(验证集2例,前瞻性验证队列1例)已被纳入训练集的重复病例后,最终共纳入2,114例患者进行分析 1展示了整个队列的基线临床人口学特征(包括人口统计学数据、病史、脑氧饱和度和脑电图数据)。总体而言,260例患者出现术后谵妄,与未发生谵妄的患者相比,这些患者年龄更大(中位数[四分位距]:72[65,76]岁 vs. 65[56,72]岁,p<0.001),且男性比例更高(68.5% vs. 61.7%,p=0.041)。

图片

图片

此外,谵妄组患者中非体外循环(cardiopulmonary bypassCPB)手术的比例更高(42.3% vs. 27.5%,p<0.001),同时接受CPB联合全循环停止(total circulatory arrestTCA)的手术比例也更高(11.5% vs. 9.8%,p<0.001)。谵妄组患者合并症发生率也显著高于非谵妄组,包括高血压(76.5% vs. 57.3%,p<0.001)、糖尿病(40.0% vs. 27.9%,p<0.001)、慢性肾病(30.4% vs. 10.4%,p<0.001)以及既往脑血管意外史(20.4% vs. 12.1%,p<0.001)。此外,谵妄组手术时间(中位数[四分位距]:231.0[201.0,267.2]分钟 vs. 207.0[164.0,246.0]分钟,p<0.001)、麻醉时间(305.0[270.0,345.0]分钟 vs. 275.0[230.0,320.0]分钟,p<0.001)、CPB持续时间(均值[标准差]:132.7±64.4分钟 vs. 104.6±53.1分钟,p<0.001)和主动脉阻断aortic cross clampACC)时间(86.5±42.6分钟 vs. 70.3±37.9分钟,p<0.001)均显著延长

再者,谵妄组患者的局部脑氧饱和度(regional cerebral oxygen saturationrSO2)较低(中位数[四分位距]:55.9%[49.4%,60.4%] vs. 58.7%[54.2%,62.9%],p<0.001),麻醉深度更深(脑电双频指数[(bispectral indexBIS]<40或患者状态指数[patient state indexPSI]<25的持续时间;中位数[四分位距]:1025.0[333.0,2049.2]/5秒 vs. 535.5[169.0,1174.0]/5秒,p<0.001),且爆发抑制比(suppression ratioSR)更高(SR>1%的持续时间;中位数[四分位距]:236.0[38.8,763.0]/5秒 vs. 102.0[21.0,332.0]/5秒,p<0.001)。完整队列的其他临床和生物信号特征见表S3。值得注意的是,谵妄组的灌注压(perfusion pressurePP)较低(均值[标准差]:61.2±9.6 mmHg vs. 64.0±6.9 mmHg,p<0.001),平均肺动脉压(mean pulmonary arterial pressuremPAP)较高(mPAP>20 mmHg的持续时间;均值[标准差]:1307.6±858.5/5秒 vs. 1079.7±770.8/5秒,p<0.001),心指数(cardiac indexCI)较低(CI<2的持续时间;均值[标准差]:783.1±817.2/5秒 vs. 581.2±680.9/5秒,p<0.001)。训练集、验证集和前瞻性验证队列中患者的特征详见表S4和表S5。在前瞻性验证队列的202例患者中,有29例出现了术后谵妄

模型性能

2和图S1分别展示了前瞻性验证队列和验证集中机器学习模型的受试者工作特征曲线(ROC)和精确性-召回率(PR)曲线。本研究开发了8种不同的机器学习模型,包括XGBoost (XGB) ET LGBMRFGBCLRANN SVM。随后,通过对验证集中表现最好的单个模型的输出进行加权平均,构建了软投票集成(ENS)分类器。为了确定ENS分类器的最有优配置,我们系统性地将纳入集成的顶级模型的数量从1个递增至8个,最终选择在验证集中ROC曲线下面积(AUROC)最高的那个组合方案由此,性能排名前五的模型(依次为XGB、ET、LGBM、RF和GBC)被纳入软投票集成分类器。为简化结果呈现,图2、表2、图S1和表S5仅报告该ENS模型及其包含的五个顶级个体模型的性能表现ENS模型展现出最优性能(前瞻性验证队列:AUROC 0.887,PR曲线下面积[AUPRC] 0.499;验证集:AUROC 0.782,AUPRC 0.290)。各独立机器学习模型在前瞻性验证队列中的AUROC为0.851-0.877、AUPRC为0.433-0.470,在验证集中的AUROC为0.751-0.769、AUPRC为0.265-0.281

图片

2和表S6分别呈现了模型在前瞻性验证队列和验证集中最佳截断值下的性能指标。总体而言,ENS模型表现最为突出:在前瞻性验证队列中取得最高准确率(0.881)和阳性预测值positive predictive value, PPV0.609),同时获得第二高的F1评分(0.538)与特异度(0.948)。其余个体模型(LR、ANN和SVM)的性能数据单独列于表S7。此外,为深入探究模型的学习能力并进一步评估其临床效益,表S8单独记录了模型在训练集中的表现,其中ENS模型的AUROC达0.977、AUPRC 0.881、准确率0.907、阳性预测值0.580、F1评分0.723

图片

用于预测心脏术后谵妄的E-PRE-DELIRIC模型(早期重症监护病房患者谵妄预测模型)在前瞻性验证队列和验证集中的AUROC分别为0.831和0.726——该模型是当前广泛使用的ICU住院期间谵妄预测工具[21,22]。虽然本研究的ENS模型AUROC高于E-PRE-DELIRIC模型,但DeLong检验显示两者在前瞻性验证队列(p=0.269)和验证集(p=0.143)中均无显著的统计学差异

3与图S2展示了基于SHAP(SHapley Additive exPlanations)方法得出的前30个最具预测价值的特征变量。其中重要性排名前五的变量分别为:估算肾小球滤过率(eGFR)、年龄、三碘甲状腺原氨酸(T3)、脑电双频指数(BIS)<40或患者状态指数(PSI)<25的持续时间、以及Katz分级4级。数据分析显示,当患者具有较低eGFR值、较高年龄、较低T3水平、较长的脑电双频指数<40(或患者状态指数<25)持续时间、以及Katz 4级评分时,其SHAP值往往更高。其中,多个生物信号特征对模型预测具有显著贡献,包括:脑电双频指数<40(或患者状态指数<25)的持续时间、平均心指数cardiac index, CI、收缩压<60mmHg的曲线下面积、爆发抑制比suppression ratioSR>1%的持续时间、局部脑氧饱和度变异系数、局部脑氧饱和度以及平均动脉压的平均真实变异性

讨论

本研究通过整合临床数据和术中生物信号特征,成功开发了预测心脏术后谵妄的机器学习模型。其中, ENS模型展现出最优的预测性能。本研究的创新性在于首次利用术中生物信号特征预测术后谵妄,据我们所知,这一方法在国内外尚无先例基于SHAP值的特征重要性分析显示:从术中脑电图数据提取的BIS<40或PSI<25持续时间"这一特征位列前五大重要预测因子,对模型预测能力具有显著贡献。此外,另有多个术中生物信号特征进入前30位重要预测因子之列包括平均心指数、灌注压< 60 mmHg的曲线下面积、爆发抑制比 > 1%的持续时间、局部脑氧饱和度变异系数、局部脑氧饱和度以及平均动脉压的平均真实变异性

现有大量研究致力于开发预测术后谵妄的机器学习模型。Koster等(2008年)基于300例择期心脏手术患者数据开发的模型仅采用了术前变量,其AUROC为0.75(95%CI:0.66-0.85)。Katznelson等(2009年)利用1059例体外循环心脏手术患者数据构建的预测模型C统计量为0.774[24]。Song等(2023年)采用围术期医疗数据开发并比较了老年患者术后谵妄预测模型,最优AUROC达0.783。然而,这些模型均未纳入术中生命体征与生物信号特征。手术过程中(尤其是心脏手术)常出现急剧的血流动力学波动,这可能是谵妄发生的诱因之一。据我们所知,本研究首次通过建模术中生物信号反映的血流动力学波动特征,利用机器学习算法预测心脏术后谵妄

术中低血压和血压波动已被确认为谵妄的危险因素。Hirsch等(2015年)的研究表明,在非心脏手术患者中,血压波动幅度(而非绝对或相对低血压)更能预测术后谵妄。Ushio等(2022年)也证实,体外循环后低血压持续时间越长,术后谵妄发生率越高。Zhang等(2023年)研究发现,髋部骨折手术中平均动脉压(MAP)变异性增加可能是术后谵妄的预测指标。术中生物信号的全面监测最能反映手术期间的血流动力学波动特征,但由于需要传统监护设备采集海量时间序列数据,将这些信号特征纳入预测模型存在困难。本研究采用VitalRecorder系统(可自动采集监护设备的时间序列数据),成功开发了包含术中生命体征变量的预测模型。值得注意的是,血压等术中生命体征属于可干预的危险因素,可心脏手术期间调控干预。因优化术中患者管理对预防心脏术后谵妄具有关键意义

本研究创新性地纳入了包括局部脑氧饱和度(rSO₂)、脑电图(EEG)和平均动脉压(MAP)在内的术中时间序列数据。这些以0.2Hz采样率采集的高分辨率数据在作为机器学习模型输入时,需要进行降维处理,但传统方法会导致大量信息丢失。既往研究多采用"数值超出特定阈值范围的持续时间"等简单标准来定义生命体征特征。与之不同的是,我们通过多元特征工程方法最大限度保留了原始数据的临床信息:1)反映患者整体/基础状态的特征(如平均值、基线值或最低值);2)表征术中不良状况严重程度的特征(如低于/高于阈值的持续时间和曲线下面积);3)体现数据逐搏变异性的特征(变异系数CV和平均真实变异性ARV)。特别需要指出的是,本研究首次将ARV作为量化血压变异性的特征纳入模型。大量研究证实,血压变异性与单纯血压值同样与心血管并发症发生相关。基于SHAP值的特征重要性分析显示,MAP的ARV位30位重要特征之列,这表明术中血压变异性对心脏手术后谵妄的发生有重大影响

脑电双频指数(BIS)与患者状态指数(PSI)是基于额叶脑电信号衍生的无单位数值,用于量化意识水平,其中BIS<40或PSI<25提示麻醉过深。爆发抑制(Burst suppression)是指脑电信号在等电位线与爆发性慢波之间交替出现的特殊模式,常见于昏迷状态或深度麻醉。本研究的SHAP值分析表明:术中脑电监测显示麻醉深度较深(BIS或PSI降低)或爆发抑制比(SR)升高的患者,术后谵妄发生风险显著增加。该发现与既往研究结论一致——多项研究已证实术中BIS值与术后谵妄/认知功能障碍存在关联。虽然具体病理生理机制尚未完全阐明,但可能归因于深度麻醉导致的脑功能损伤与神经网络连接障碍

此外,与局部脑氧饱和度(rSO₂)相关的多项特征入选本研究模型最重要的30个预测因子之列。rSO₂反映脑组织局部氧合状态,其水平降低与死亡率上升及多种神经系统并发症(包括术后认知功能障碍)显著相关。然而,关于围术期rSO₂监测与术后谵妄关联性的研究结论尚存分歧:多项研究证实术前rSO₂水平与术后谵妄存在相关性;而meta分析显示术中rSO₂水平与谵妄无显著关联——但该结论可能受纳入试验数量有限的偏倚影响。Wang等(2019年)的前瞻性研究发现,术中rSO₂去饱和事件与术后谵妄发生存在显著关联。本研究结果提示,术中rSO₂监测可能对术后谵妄预测具有重要价值,但尚需更多临床试验予以验证

基于SHAP方法筛选出的高重要性特征变量,既包含可调控因素也包含不可变因素。虽然年龄、术前实验室指标及合并症等术前特征多属不可变因素,但将这些变量全面纳入模型可显著提升预测效能,进而有助于识别高危患者并实施多模式、多学科的术后谵妄预防策略[45]。更重要的是,术中变量(尤其是麻醉深度与血流动力学相关参数)具有高度可调控性。识别这些可干预变量对临床实践具有重大意义——麻醉医师可通过以下方式预防谵妄发生: 实时监测与精确滴定麻醉药物,避免BIS/PSI过低和爆发抑制比(SR)过高的麻醉过深状态; 通过优化血流动力学、血氧含量及脑血流灌注来改善局部脑氧饱和度(rSO₂)。优化这些术中可调控因素为降低谵妄风险提供了直接的标靶

本研究创新性地采用术中生物信号预测心脏术后谵妄,最优ENS模型的预测效能显著(AUROC 0.887,AUPRC 0.499,准确率0.881,F1评分0.538)。该模型不仅可实现谵妄的早期预警,更能指导临床工作者及时启动预防性干预,对改善患者预后、优化医疗结局及降低医疗成本具有重要价值

研究局限性

这项研究存在几个局限性。首先作为单中心研究,不同医疗机构的临床实践存在差异: 在开展本研究的Severance心血管医院,所有单纯性冠状动脉旁路移植术均采用非体外循环(off-pump)方式,这导致非CPB患者谵妄发生率偏高,而其他机构可能同时采用体外循环(on-pump)和非体外循环的方式手术;该院采用重症监护谵妄筛查量表(ICDSC)进行评估,而其余大多数机构使用ICU意识模糊量表CAM-ICU)。虽然两种工具均经过充分验证,但由于模型开发基于回顾性数据,其结果可能无法直接推广。因此,需谨慎解读本研究结论,并通过多中心验证确保模型的外部有效性其次,受模型开发特性限制,本研究使用回顾性数据进行训练。为弥补这一局限,我们前瞻性收集了额外数据用于模型验证,并据此评估最终性能。最后,模型纳入的百余项术前/术中临床特征及38项术中生物信号特征,可能影响其临床适用性。要实现临床应用,需配套开发能自动完成以下流程的平台: 提取临床与生物信号数据; 计算预设特征; 通过机器学习模型进行风险预测

神麻人智 述评

本研究创新性地整合围术期临床数据与术中生物信号特征,成功构建了预测心脏术后谵妄的机器学习模型。研究亮点在于:首先,采用SHAP方法识别出eGFR、麻醉深度(BIS/PSI)及局部脑氧饱和度(rSO₂)等关键预测因子,其中术中生物信号特征的纳入填补了该领域研究空白;其次,开发的集成学习(ENS)模型展现出优异性能(AUROC 0.887),显著优于传统预测工具。尤为重要的是,研究揭示了血压变异性(ARV)、爆发抑制比(SR)等可调控因素与谵妄的关联,为临床干预提供了具体靶点。尽管存在单中心数据的局限性,但通过前瞻性验证队列的设计增强了结果可靠性。该研究不仅推动了术后谵妄预测方法的精准化,更通过可干预危险因素的识别,为实施个体化预防策略奠定了理论基础,具有重要的临床转化价值。未来需通过多中心研究进一步验证模型的普适性

参考文献:

Han C, Kim HI, Soh S, Choi JW, Song JW, Yoon D. Machine learning with clinical and intraoperative biosignal data for predicting postoperative delirium after cardiac surgery. iScience. 2024 May 8;27(6):109932.   

上一篇: 研究证实:每天睡这么久最好,睡多了也会折...

下一篇: 25岁的他夜盲症,视力下降!以为是用眼过...


 本站广告