【协和医学杂志】中文期刊发表的预测模型系统评价文献调查与评价:方法学质量和报告质量

时间:2024-09-14 13:01:32   热度:37.1℃   作者:网络

预测模型是根据人口学特征、检测结果和疾病特征估计个体患有(即诊断模型)或出现(即预后模型)某种结局(如疾病、事件、并发症)可能性的数学模型[1]。预测模型能够快速有效地区分有无潜在目标结局的个体,从而为临床决策提供及时的参考信息[2]。不同临床专业领域的研究者逐渐认识到预测模型具有较高的临床实用价值,且其研究结果的发表较少受结果显著性的影响,因此,近年来大量的预测模型研究被发表[3]

然而,有学者发现预测模型研究的方法学质量和报告质量欠佳,例如,Hueting 等[4]使用PROBAST(Prediction model Risk Of Bias ASsessment Tool)评价了922个乳腺癌治疗决策预测模型的偏倚风险,发现95%的预测模型偏倚风险为高,其主要原因是对缺失数据的处理不充分、使用单因素分析选择候选预测因子和未处理过度拟合等。

Kaiser 等[5]使用TRIPOD(Transparent Reporting of a Multivariable Prediction Model for Indivi-dual Prognosis or Diagnosis)对42个黑色素瘤预测模型研究的报告质量进行调查,发现标题、摘要和模型在设定3个条目方面报告明显不足。因此,在使用预测模型指导临床决策时应特别关注其方法学质量和报告质量,从而为临床决策提供正确建议。

系统评价是以结构化和可重复的方式整合某一特定主题的不同研究结果的方法,相较于单个研究,可以为临床科学决策提供全面的证据参考[6]。然而,方法学存在严重缺陷和报告不充分的系统评价,不仅导致其他研究者难以重复其研究结果,降低其可信度和临床应用价值,还导致研究资源的巨大浪费[7]。此外,针对同一研究问题可能由于方法学差异而存在具有不同结论的系统评价,这给临床医生的循证临床决策带来极大困惑[8]。近年来,已有多篇预测模型系统评价相关文献在中文期刊发表[9-12],但尚缺乏调查其方法学质量和报告质量的相关研究。

AMSTAR(A Measurement Tool to Assess Systematic Reviews)和PRISMA 2020(Preferred Reporting Items for Systematic reviews and Meta-Analyses 2020)是国际上公认的系统评价文献方法学质量和报告质量评价工具,在医学和公共卫生领域中被广泛使用[13-14]

因此,本研究使用AMSTAR[15] 和 PRISMA 2020[16-17]评价了中文期刊发表的预测模型系统评价文献的方法学质量和报告质量,探索研究质量的影响因素,以期为未来相关系统评价的设计、实施和报告提供方法学依据。

1 资料与方法

1.1 纳入与排除标准

纳入标准:(1)研究类型:中文期刊公开发表的预测模型系统评价(即定性系统评价或Meta分析);(2)结局指标:不限疾病或结局指标。

排除标准:(1)重复发表的研究;(2)无法获取全文的研究;(3)会议摘要、评论、系统评价方案和叙述性综述等;(4)基于系统评价开发的预测模型研究;(5)非中文文献或译文。

1.2 文献检索策略

计算机检索中国知网(CNKI)、万方数据知识服务平台、中国生物医学文献数据库和维普数据库,收集中文期刊发表的预测模型系统评价,检索时限为建库至2023年7月20日。检索词包括:预测模型、诊断模型、预后模型、系统评价和Meta分析等。以CNKI为例,其具体检索策略见图1。

图片

 

图1 CNKI检索策略

CNKI(China National Knowledge Infrastructure):中国知网

 

1.3 文献筛选和资料提取

由 2 名研究者独立筛选文献并交叉核对结果,产生分歧时通过讨论或与第3名研究者协商解决。文献筛选时首先阅读题目和摘要,在排除明显不相关的文献后,进一步阅读全文以确定是否最终纳入。

采用Microsoft Excel 2019 软件制定统一的数据提取表。2名研究者通过阅读全文,独立提取数据并交叉核对结果,产生的分歧通过讨论解决。资料提取内容包括:题目、第一作者、发表年份、期刊名称、期刊等级(是否被2023—2024年度中国科学引文数据库收录)、作者单位(大学与其附属医院视为2个独立的一级机构)、研究主题、检索的数据库、定量合并对象、预测性能指标、模型数量、注册信息、资助信息、利益冲突声明、原始研究类型、原始研究数量、方法学质量评价工具和论文页数等。

1.4 纳入研究的质量评价

由2名研究者独立评价纳入的系统评价方法学质量和报告质量,并交叉核对结果。方法学质量评价采用AMSTAR工具,共11个条目。AMSTAR量表的每个条目分别用“是”(Y)、“部分是”(PY)和“否”(N)进行描述[18]。报告质量评价采用PRISMA 2020清单,包括7个部分,共42个条目。PRISMA 2020清单的每个条目分别用“是”“部分是”“否”和“不适用”(NA)回答。为便于统计分析,本研究对2种工具均采用以下计分标准[19-20]:“是”和“不适用” 均计1分,“部分是”计0.5分,“否”计0分。本研究中将“Y” 的占比低于50% 的条目视为纳入的系统评价方法学质量和报告质量存在明显缺陷的方面,即未来需要显著改进的领域[19]

1.5 统计学处理

采用描述性分析报告纳入系统评价的基本特征。系统评价对AMSTAR和PRISMA 2020条目的依从性报告以频数(百分数),系统评价的质量评分以均数±标准差和中位数表示。采用Shapiro-Wilk检验评价方法学质量评分与报告质量评分的正态性。采用Pearson相关性检验评价报告质量评分和方法学质量评分的相关性,相关性强度的判定方法为:相关系数r<0.4时相关性低;r>0.7时相关性高;r为0.4~0.7时,相关性中等[21]。通过多重线性回归分析探索发表年份(Year)、期刊等级(CSCD)、系统评价类型(T_Review:定性系统评价;Meta:Meta分析)、机构类型(T_Institution)、基金资助(Funding)、论文页数(N_Page)和作者数量(N_Author)等7个研究特征是否为方法学质量和报告质量的影响因素。采用方差膨胀因子(VIF)评价自变量之间是否存在多重共线性,当VIF<10时表明自变量间不存在明显的共线性[22]。百分比条图、森林图、雷达图和散点图被用于可视化质量评价结果。采用R 4.2.3和Microsoft Excel 2019软件完成统计学分析与绘图。以P<0.05为差异具有统计学意义。

2 结果

2.1 文献筛选流程及结果

共纳入相关文献272 篇。首先排除重复文献147篇,然后根据题目和摘要排除60篇明显不相关的文献;最后阅读全文,排除10篇文献,最终纳入 55 篇预测模型系统评价(纳入研究清单可通过邮件向通信作者索取)。文献筛选流程见图2。

图片

 

图2 文献筛选流程

CNKI:同图1;CBM(China Biology Medicine disc):中国生物医学文献数据库

2.2 纳入研究基本特征

55篇系统评价中,最常见的研究主题为心血管疾病、脑卒中和糖尿病。《中国循证医学杂志》《中华护理杂志》和《中华现代护理杂志》发表的预测模型系统评价最多,均为6篇(10.91%),论文页数为3~14页。检索的数据库为3~10个,11篇系统评价使用“CNKI+CBM+Cochrane Library+Embase+PubMed/Medline+维普+万方+Web of Science”进行文献检索,占比20.00%。12篇为Meta分析,其中仅3篇(25.00%)对预测性能指标进行了定量合并,最常用的预测性能指标组合为“AUROC+校准度/拟合优度”,占比30.91%。仅6篇系统评价进行了注册,占比10.91%。35篇系统评价同时纳入了前瞻性研究和回顾性研究,占比63.64%。PROBAST为最常用的方法学质量评价工具,占比70.91%;纳入原始研究的数量为3~41个。41篇系统评价报告受到基金资助,占比74.55%,但仅22篇报告无利益冲突,占比40.00%。纳入研究的详细特征见表1。

 

表1 纳入系统评价的基本特征

图片

2.3 方法学质量评价结果

基于 AMSTAR工具评价发现,条目 1、4、5、6 和 10评价为“Y” 的占比低于50%。值得注意的是,无系统评价在条目 4 和 5被评价为“Y”(图3)。纳入系统评价的AMSTAR 量表平均得分为 (5.24±1.29)分,中位得分为5.00(范围:2.00~8.00)分。

图片

 

图3 预测模型系统评价的方法学质量评价结果

2.4 方法学质量影响因素的探索性分析

Shapiro-Wilk检验显示,方法学质量评分为正态分布(P=0.16)。基于多重线性回归分析探索方法学质量的潜在影响因素,结果表明,较长的篇幅、近期发表和受到基金资助与更高的方法学质量相关(P<0.05,VIFmax=2.19),见图4。

图片

 

图4 方法学质量潜在影响因素的多重线性回归分析

2.5 报告质量评价结果

基于 PRISMA 2020 清单评价报告质量发现,条目 7、10a、12、13a-f、14、15、16a-b, 17、20b-d、21、22、23d、24a-c、25和26评价为“Y”的百分比均低于 50%。值得注意的是,无系统评价在条目 7、13a-b、15、16b、22、24c和25被评价为“Y”(图5)。纳入系统评价的PRISMA 2020 清单平均得分为(23.75±2.46)分,中位得分为24.00(范围:17.50~30.00)分。

图片

 

图5 预测模型系统评价的报告质量评价结果

 

2.6 报告质量影响因素的探索性分析

Shapiro-Wilk检验结果显示,报告质量评分为正态分布(P=0.43)。基于多重线性回归分析探索报告质量的潜在影响因素,结果表明,较长的篇幅、近期发表、发表为定性系统评价和受到基金资助与更高的报告质量相关,但更多的作者却与更低的报告质量相关(P<0.05,VIFmax=2.19),见图6。

图片

 

图6 报告质量潜在影响因素的多重线性回归分析

2.7 方法学质量与报告质量的相关性分析

经Pearson 相关性检验发现,纳入的系统评价方法学质量与报告质量存在中等程度正相关(r=0.58,P<0.001),见图7。

图片

 

图7 预测模型系统评价方法学质量与报告质量相关性散点图

 

3 讨论

预测模型系统评价可以评估针对同一结局变量的多个模型的偏倚风险和适用性,从而为临床决策提供建议。然而,中文期刊发表的预测模型系统评价的方法学质量和报告质量尚不清楚,影响其研究结论被用于指导临床实践。因此,本文使用AMSTAR和PRISMA 2020评价了发表于2015—2023年的55篇预测模型系统评价,发现纳入系统评价的方法学质量和报告质量均有待显著提高。尤其值得注意的是,纳入系统评价对AMSTAR 条目4和5以及 PRISMA 2020条目7、13a-b、15、16b、22、24c 和 25 的依从性极低。

为确保检索结果的全面性和准确性,预测模型系统评价的检索不应对发表类型(如不检索灰色文献)、语言等进行限制。灰色文献是指未在同行期刊上公开发表的文献,这些文献在系统评价的制作中同样具有重要的作用[23]。因此,预测模型系统评价作者应重视灰色文献的检索,例如,借助OpenGrey (www.opengrey.com)等数据库检索灰色文献。高质量的系统评价应是可重复和透明的。系统评价制作过程中全文筛选阶段被排除的文献大多与最终纳入的研究具有很高的相似性,而提供排除研究清单可以帮助读者判断研究筛选过程中是否存在错误[17]。因此,研究者应该提供全文筛选阶段的排除文献清单及引文,以保证筛选过程的透明度和提高研究结论的可信度。

考虑到当前中文期刊大多对论文存在字数限制,导致系统评价作者难以在正文中呈现该清单。因此,建议中文期刊允许作者将该清单以附件形式上传至投稿系统,稿件录用后读者可在线获取该文件。预测模型系统评价作者应报告所有数据库、注册平台和网站的全部检索策略,以便其他研究者能够重复检索过程并验证结果,这不仅有利于系统评价的更新,还能提高研究结果的可信度[16]。纳入研究中存在缺失数据或数据形式不符合时往往会给系统评价的开展造成困难,导致系统评价作者无法直接合并结果。因此,为便于读者可以重复系统评价作者处理数据的方法,并评估其是否合适,系统评价作者应详细报告处理缺失数据和转化数据的方法。

临床实践决策应基于高质量的循证医学证据,GRADE是目前国际公认的最权威的证据体质量评价工具,建议预测模型系统评价作者参考GRADE工作组发表的相关指南,应用GRADE对其合成结果进行评价,这不仅有助于临床医生应用系统评价结果,还有助于临床实践指南推荐建议的快速形成[24]

利益冲突常影响研究结果的客观性和真实性,而由企业资助的科学研究更可能存在明显的利益冲突,从而产生有利于资助方的研究结果,基于此类研究可能会误导临床实践,甚至给患者造成更大的伤害[25]。因此,预测模型系统评价作者应该清晰地报告开展研究时受到的所有资助信息,同时尽可能地报告纳入原始研究中的资金来源,从而帮助终端用户判断研究结果的可靠性和真实性。

此外,本研究发现较长的篇幅、近期发表和受到基金资助与更高的方法学质量和报告质量相关,发表为定性系统评价与更高的报告质量相关。然而,更多的作者却与更低的报告质量相关。论文篇幅长表明系统评价作者可以详细和充分地描述其研究方法与结果,且通常引用更多的参考文献以支持作者的观点。因此,在本研究中,论文篇幅与方法学质量和报告质量均呈现正相关,这与王佳琳等[26]的研究结果基本一致。

2023年中文期刊发表的系统评价的方法学质量和报告质量较2015—2020年有所提高,这一结论与徐俊峰等[18]的结论一致,这可能与研究人员对AMSTAR和PRISMA 2020的了解逐渐增多有关。由于基金项目研究在立项、结题和鉴定的过程中均需权威专家的充分论证和评价,其研究层次可能较高[27]。本研究发现受到基金资助的论文与更高的方法学质量和报告质量相关,这与王国豪等[28]的研究结果一致。

此外,发表为定性系统评价的研究与更高的报告质量相关,这可能与纳入Meta分析本身的报告质量较低以及本研究所使用的评分方法有关,为避免对研究质量的主观惩罚,笔者将评价为“NA”与 “Y”的条目同等赋分,可能使定性系统评价的报告质量评价偏高。值得注意的是,本研究发现更多的作者与更低的报告质量相关,而一般情况下参与撰写论文的作者越多应越能保证关键的方法学和结果被充分和清晰报告,分析原因可能与期刊对稿件字数限制有关,也可能是学术论文“挂名”现象的侧面反映。

值得注意的是,国外学者于2023年3月在BMJ 发表了个体预后与诊断多变量预测模型系统评价/Meta分析的报告规范,即TRIPOD-SRMA声明[29],该规范基于PRISMA 2009和PRISMA 2020制订,但原文指出该规范主要适用于对预测性能指标(例如区分度、校准度和临床效用等指标)进行综合的系统评价/Meta分析。考虑到本研究纳入的12篇Meta分析中,仅3篇(25.00%)系统评价对预测性能指标进行了定量合并。因此,本研究选用 PRISMA 2020评价纳入系统评价的报告质量。

此外,虽然AMSTAR工具在 2017 年进行了更新和调整,并发布了AMSTAR 2[30],但其应用主要针对干预性研究的系统评价,且其评价条目分类过细,导致多个条目并不适用于评价预测模型系统评价的方法学质量,因此,本研究选用了具有普适性的AMSTAR作为方法学质量评价工具。

4 优势与局限性

本研究具有以下优势:(1)系统检索 4 个最常用的中文数据库,以尽可能地覆盖所有中文期刊发表的预测模型系统评价;(2)文献筛选、数据提取和质量评价环节均由2名独立的具有循证医学专业知识的研究者参与,出现的分歧通过协商或纳入第3名研究者进行解决,保证了研究过程的科学性、严谨性和可靠性;(3)首次使用AMSTAR 和 PRISMA 2020对纳入系统评价的方法学质量和报告质量进行评价,发现了当前中文期刊预测模型系统评价的不足,并使用多元统计分析方法探索了研究质量的潜在影响因素;此外,根据研究结果为未来预测模型系统评价的开展和发表提出了具体建议。

然而,本研究亦存在以下局限性:(1)仅使用标题检索存在遗漏相关研究的风险,这可能导致高估了该领域研究的整体质量,原因是在标题中未使用“预测模型”和“系统评价”相关字眼的论文首先不满足 PRISMA 2020 条目 1 的要求;(2)潜在影响因素的选择和分类界值存在一定程度的主观性,但本研究结果与已发表的同类型研究结果基本一致,这反映了本研究结果的可靠性;(3)不同研究者对量表条目的理解可能存在差异,尽管本研究由2名研究者独立使用AMSTAR 和 PRISMA 2020 进行质量评价,并交叉核对结果,但仍无法完全消除人为因素对评价结果客观性的影响。

5 小结

当前中文期刊发表的预测模型系统评价的方法学和报告质量尚有待提高。建议系统评价作者参考 AMSTAR和PRISMA 2020/TRIPOD-SRMA设计、实施和报告系统评价,并应重点关注灰色文献的检索、排除文献的清单、检索策略的报告和缺失数据的处理方法等方面,以切实提高其整体质量。期刊应将PRISMA 2020/TRIPOD-SRMA纳入稿约,并强制要求系统评价作者在投稿时上传报告清单。此外,编辑和审稿专家在评审预测模型系统评价稿件时可依据AMSTAR和PRISMA 2020/TRIPOD-SRMA的相关条目对其质量进行严格评判和把关。

参考文献

[1]Hendriksen J M T, Geersing G J, Moons K G M, et al. Diagnostic and prognostic prediction models[J]. J Thromb Haemost, 2013, 11(Suppl 1): 129-141.

[2]Meehan A J, Lewis S J, Fazel S, et al. Clinical prediction models in psychiatry: a systematic review of two decades of progress and challenges[J]. Mol Psychiatry, 2022, 27(6): 2700-2708.

[3]王昊玥, 王俊峰. 临床预测模型研究中的常见误区[J]. 中国卒中杂志, 2023, 18(7): 758-769.

[4]Hueting T A, Van Maaren M C, Hendriks M P, et al. The majority of 922 prediction models supporting breast cancer decision-making are at high risk of bias[J]. J Clin Epidemiol, 2022, 152: 238-247.

[5]Kaiser I, Diehl K, Heppt M V, et al. Reporting quality of studies developing and validating melanoma prediction models: an assessment based on the TRIPOD statement[J]. Healthcare (Basel), 2022, 10(2): 238.

[6]Murad M H, Montori V M, Ioannidis J P A, et al. How to read a systematic review and meta-analysis and apply the results to patient care: users' guides to the medical literature[J]. JAMA, 2014, 312(2): 171-179.

[7]Hoffmann T C, Oxman A D, Ioannidis J P, et al. Enhancing the usability of systematic reviews by improving the consideration and description of interventions[J]. BMJ, 2017, 358: j2998.

[8]Shea B J, Grimshaw J M, Wells G A, et al. Development of AMSTAR: a measurement tool to assess the methodological quality of systematic reviews[J]. BMC Med Res Methodol, 2007, 7: 10.

[9]丁舒, 吴瑛, 陶香君, 等. 院内患者谵妄风险预测模型的系统评价[J]. 中华护理杂志, 2015, 50(5): 613-619.

[10]靳育静, 高鹰, 张卿. Gail模型在我国女性乳腺癌发病风险预测中的研究:系统综述与Meta分析[J]. 现代肿瘤医学, 2022, 30(6): 1017-1023.

[11]梁诗雨, 李晨阳, 邵乐文. ICU后综合征风险预测模型的系统评价[J]. 中国护理管理, 2023, 23(3): 431-437.

[12]詹立睿, 张紫薇, 宋萍, 等. 2型糖尿病患者低血糖风险预测模型的系统评价[J]. 中华糖尿病杂志, 2023, 15(3): 244-251.

[13]Zeraatkar D, Bhasin A, Morassut R E, et al. Characteristics and quality of systematic reviews and meta-analyses of observational nutritional epidemiology: a cross-pal study[J]. Am J Clin Nutr, 2021, 113(6): 1578-1592.

[14]Grammatopoulos T, Hunter J W S, Munn Z, et al. Reporting quality and risk of bias in JBI systematic reviews evaluating the effectiveness of interventions: a methodological review protocol[J]. JBI Evid Synth, 2023, 21(3): 584-591.

[15]Shea B J, Hamel C, Wells G A, et al. AMSTAR is a reliable and valid measurement tool to assess the methodological quality of systematic reviews[J]. J Clin Epidemiol, 2009, 62(10): 1013-1020.

[16]Page M J, McKenzie J E, Bossuyt P M, et al. The PRISMA 2020 statement: an updated guideline for reporting systematic reviews[J]. BMJ, 2021, 372: n71.

[17]Page M J, Moher D, Bossuyt P M, et al. PRISMA 2020 explanation and elaboration: updated guidance and exemplars for reporting systematic reviews[J]. BMJ, 2021, 372: n160.

[18]徐俊峰, 安妮, 周为文, 等. 《中国循证医学杂志》发表的干预类系统评价/Meta分析方法学质量评价[J]. 中国循证医学杂志, 2013, 13(5): 605-611.

[19]卢存存, 柯立鑫, 汤昊, 等. 中文期刊发表的氨甲环酸Meta分析的报告质量与方法学质量评价[J]. 中国循证医学杂志, 2021, 21(11): 1332-1338.

[20]Li J Y, Tang L Y, Tang H, et al. Reporting quality of systematic review protocols of interventions for knee osteoarthritis: a systematic review protocol[J]. Med Data Min, 2021, 4(3): 12.

[21]Schober P, Boer C, Schwarte L A. Correlation coefficients: appropriate use and interpretation[J]. Anesth Analg, 2018, 126(5): 1763-1768.

[22]Villa M, Le Pera M, Cassina T, et al. Reporting quality of abstracts from randomised controlled trials published in leading critical care nursing journals: a methodological quality review[J]. BMJ Open, 2023, 13(3): e070639.

[23]Paez A. Gray literature: an important resource in systematic reviews[J]. J Evid Based Med, 2017, 10(3): 233-240.

[24]Brozek J L, Canelo-Aybar C, Akl E A, et al. GRADE guidelines 30: the GRADE approach to assessing the certainty of modeled evidence—an overview in the context of health decision-making[J]. J Clin Epidemiol, 2021, 129: 138-150.

[25]陈汐敏. 我国医学期刊论文发表偏倚的调查和思考[J]. 中国科技期刊研究, 2019, 30(7): 715-720.

[26]王佳琳, 闫佰荟, 王璐, 等. 中文肿瘤学干预类Meta分析论文摘要报告质量评价分析[J]. 中华医学图书情报杂志, 2020, 29(10): 24-31.

[27]王朝宏, 张卫国, 杜媛鲲, 等. 中华超声影像学杂志2010—2012年基金项目论文统计分析与评价[J]. 中华超声影像学杂志, 2013, 22(5): 458-459.

[28]王国豪, 靳英辉, 张磊, 等. 国内中医护理系统评价/Meta分析的报告质量与方法学质量评价[J]. 护理学杂志, 2016, 31(1): 98-102.

[29]王子怡,卢存存,张晶磊,等.个体预后与诊断多变量预测模型系统评价/Meta分析报告规范(TRIPOD-SRMA)解读[J].中国循证医学杂志,2024,24(2):202-210.

[30]Shea B J, Reeves B C, Wells G, et al. AMSTAR 2: a critical appraisal tool for systematic reviews that include randomised or non-randomised studies of healthcare interventions, or both[J]. BMJ, 2017, 358: j4008.

上一篇: 前沿专利成分- MitoQ 分子 全球首...

下一篇: JAHA:围孕期饮食质量与妊娠高血压疾病...


 本站广告