利用真实世界的电子健康记录识别肺动脉高压患者的机器学习方法
时间:2022-12-26 17:59:22 热度:37.1℃ 作者:网络
研究背景:
本研究旨在开发一个机器学习(ML)模型,以识别可能患有肺动脉高压(PH)的患者,使用基于美国的大型患者级电子健康记录(EHR)数据库。
研究方法:
使用Optum公司基于美国的去识别的电子健康记录数据集(2007-2019)开发了梯度提升模型XGBoost。使用诊断、治疗和程序代码识别PH和疾病控制成人患者,并将其随机分成训练集(90%)或测试集(10%)。模型特征包括患者人口统计学、医生访问、诊断、程序、处方和实验室测试结果。Shapley Additive exPlanations值被用来确定特征的重要性。
研究结果:
我们确定了11,279,478名对照组和115,822名PH患者(平均年龄分别为62岁和68岁,均为53%的女性)。最终模型使用了165个特征,最重要的预测特征包括心力衰竭的诊断、呼吸急促和心房颤动。该模型预测PH的接收者操作特征曲线下面积(AUROC)为0.92。在诊断前18个月及以后,预测PH的AUROC仍在0.80以上。在PH患者中,我们还确定了955名肺动脉高压(PAH)和1432名慢性血栓栓塞性肺动脉高压(CTEPH)患者,对这些队列获得的AUROCs范围分别为0.79-0.90和0.87-0.96。
研究结论:
这种基于患者EHR记录的PH检测模型是可行的,在PAH和CTEPH患者的亚组中表现良好。这种方法有可能通过减少PH的诊断延迟来改善患者的预后。
参考文献:
Kogan E, Didden EM, Lee E, Nnewihe A, Stamatiadis D, Mataraso S, Quinn D, Rosenberg D, Chehoud C, Bridges C. A machine learning approach to identifying patients with pulmonary hypertension using real-world electronic health records. Int J Cardiol. 2022 Dec 14:S0167-5273(22)01890-3. doi: 10.1016/j.ijcard.2022.12.016. Epub ahead of print. PMID: 36528138.