European Radiology:深度学习模型在骨龄预测中的应用
时间:2023-08-01 17:32:48 热度:37.1℃ 作者:网络
骨龄(BA)评估是对左手X射线的骨骼成熟度的一种解释,估计的BA值是医生在儿童保健或其他情况下的参考,如法医分析和运动医学。放射科医生通常根据Greulich-Pyle(G&P)图谱做出BA报告,这种方法是BA评估的常用方法之一。在临床实践中,BA评估包括BA值和BA的临床判定。病人的BA值是通过将他的左手和手腕的X光片与G&P图谱中的参考标准图像进行最佳匹配来确定的。基于BA值的临床判断包括超前、正常和延迟的骨骼发育。一些研究表明,人工智能在BA评估方面比医生具有更高的潜在优势,由于BA是一个定量的数值,因此是自动图像评估的理想目标。
深度学习被称为机器学习的一个子类型,在执行医学图像分析的不同任务时表现出很高的准确性。近年来,许多基于深度学习的新方法被利用于BA评估。北美放射学会(RSNA)小儿骨龄机器学习挑战赛在2017年RSNA年会上启动,10个最佳团队的平均绝对差异(MAD)很低,从4.265-4.907个月不等,挑战赛的结果表明机器学习在BA评估中的成功。
一般来说,BA评估会受到道德、地区、经济状况和营养的影响。使用来自不同环境或病人群体的图像数据进行深度学习模型训练能够缓解标准化问题。标准化问题是指在某些情况下训练的模型不能在新的情况下做出同样准确的预测。然而,目前,很少有论文通过比较单一和联合数据源(机构)来解决BA模型的标准化问题。
近日,发表在European Radiology杂志的一项研究通过比较AI和放射科医生对BA的临床判断,评估了AI在估计骨龄(BA)方面的偏差和错误,为临床进行更加快速、准确的BA评估提供了技术支持。
本项研究从中国私人数据集(CHNm)、美国公共数据集(USAm)和结合上述两个数据集的联合数据集(JOIm)建立了三个深度学习模型。测试数据CHNt(n=1246)是由10位资深儿科放射学家标记的。评估了数据部位差异、解释偏差和观察者间变异性对BA评估的影响。通过卡方检验和Kappa值评估了人工智能模型和放射科医生对BA的临床判断(使用刷子数据的正常、高级和延迟BA组)之间的差异。并使用Grad-CAM生成CHNm-CHNt的热图。
研究在CHNm-CHNt上得到的MAD值为0.42年;这一结果表明对整个群体来说有适当的准确性,但并不表明对个体BA的准确估计,因为Kappa值为0.714,AI和人类临床测定的BA之间的一致性明显不同。热图的特征与医生在X光片上的视觉并不完全一致。不同的人工智能模型在估计BA方面的表现各不相同,人工智能和放射科医生对BA的临床判断之间的分歧可能是由数据偏差引起的,包括病人的性别和年龄、机构和放射科医生。
图 男性5岁、8岁、14岁和18岁的手部X光片(第1行)、热图(第2行)、标准差(SD)值(第3行)和变异值图(第4行)的样本。这些注意力热图显示了AI的视觉。对于年龄较小的儿童,如5岁的男性组,热图更关注指骨,但根据GP图谱,放射科医生更关注腕骨。对于年龄较大的儿童,如14岁的男性组,热图更多地集中在腕骨上,但放射科医生更多地集中在掌骨和桡骨上
本项研究表明,深度学习模型在预测内部和联合数据集的BA方面的表现优于外部验证。然而研究同时指出,应该仔细考虑模型对儿童发育临床判断中的偏差和错误。
原文出处:
Mei Bai,Liangxin Gao,Min Ji,et al.The uncovered biases and errors in clinical determination of bone age by using deep learning models.DOI:10.1007/s00330-022-09330-0