大反转!最新研究:现有数据无法证实“武汉华南海鲜批发市场是新冠疫情的起源地”,原因有三...
时间:2024-01-26 19:29:59 热度:37.1℃ 作者:网络
距离2019年底新冠疫情大爆发已过去四年之久,恍如隔世却似经年。而提及新冠疫情的最早“震中”,不少人的第一反应仍是:武汉华南海鲜批发市场。
“湖北省武汉市卫健委消息,近期部分医疗机构发现接诊的多例肺炎病例与华南海鲜城有关,目前已发现27例病例”“武汉市华南海鲜市场陆续出现不明原因肺炎病人,目前已休市整治”“在中疾控病毒病所检测的585份环境样本中,有33份样品含有新型冠状病毒核酸,病毒主要集中在‘野味区’”......这样的新闻消息还历历在目。
2022年7月,Science上发布的重磅论文The Huanan Seafood Wholesale Market in Wuhan was the early epicenter of the COVID-19 pandemic,从统计学角度再一次“实锤”——新冠肺炎疫情的中心是华南海鲜批发市场,并认为新型冠状病毒可能源自活体野生动物贸易。
称其“重磅”一点都不夸张,Science上这篇文章的火爆程度相当惊人,在出版后的10个月内被下载了超40万次,引起全球轰动。
DOI:10.1126/science.abp8715
然而,反转出现了!
2024年1月16日,来自香港浸会大学的赵崇诺教授和德国弗莱贝格工业大学的Dietrich Stoyan最新发表的论文却推翻了上述研究结论。他们认为,Science上刊登的研究统计结果是无效的,并提出了三点理由来阐释该文章中的统计部分存在明显错误。
换句话说,先前Science上刊登的研究无法证明“华南海鲜批发市场是新冠疫情的早期震中”。
精彩精彩!让我们一起来看看科研界的这场battle!
https://doi.org/10.1093/jrsssa/qnad139
问题一:
原始数据的来源和质量不高
Science论文中使用的数据源自世界卫生组织(WHO)2021年公布的WHO-convened global study of origins of SARS-CoV-2: China part。
研究者从WHO报告的164个病例中收集到155个前新冠感染者的“可靠”居住地址,并将其投射到地图上作为“点”来进行统计分析。
原始论文中的空间模拟
但遗憾的是,Science文章中使用到的这些数据质量不高,问题有四:
第一,上述地点没有精确的经纬度坐标。但Science论文中声称,在提取这些数据时,控制每个案例的数据噪音(Noise,即真实标记与数据集中的实际标记间的偏差)不超过50m。
第二,有7个病例共用了同一个地址。但Science论文中认为,这7个地点是不同的。
第三,研究中没有明确每个病例的发病日期,甚至连大流行的起始时间也“笼罩”在不确定之中。2021年发表在Cell上的The origins of SARS-CoV-2: A critical review曾就不同时间进行分类讨论,事实上,起病时间的不同也会带来不同的情况。
Cell论文中提及的武汉新冠肺炎疫情早期的遗传学和流行病学数据
第四,分析所用到的数据没有包括全部,只是部分。一项截至2020年2月的回顾性检索显示,2019年12月出现的病例数不止155个,至少有257个。
问题二:
“将早期病例位置的形心(centroid)或其他简单构建点视作疫情发源地”的假设是不成立的
抛开数据的来源和质量不谈,更值得揣摩的是Science论文中采用的“统计方法”。
为了保证一致性,本研究依然使用了Science论文中的原始数据。但不同于上述文章中的经纬度坐标和实现斜距算法(Haversine distance),本研究将新冠患者位置投影到了UTM坐标系中,并采用了欧几里得距离(Euclidean distance)。
如下图所示,图中标注了2019年12月收集到的155名新冠感染者的地理位置,并根据聚集的“点云”定位到一些可能为新冠发源地的地标。
Science论文使用坐标中值作为“中心点”,认为华南海鲜批发市场(红色双三角标记)是新冠疫情的“震中”。
但本论文分析“点云”集散程度后发现,市场附近还存在很多“中心”地标,同样应该纳入“震中”的候选地。比如:海鲜市场、武汉疾病预防控制中心(CDC)、汉口火车站、万达广场以及一家酒店等。
新论文中的病例位置图
于是,研究者在UTM坐标系中模拟了海鲜批发市场、武汉CDC和汉口火车站之间的相对大小以及距离,从而更直观地分析。由于Science论文中的患者定位存在数据噪音,这些地标的物理尺寸也需要考虑到位置噪音的因素。
事实上,在统计背景下,这些备选的标记地点均有可能是新冠大流行的“震中”;换言之,华南海鲜批发市场并不具有“优势”成为独一无二的起源地。同时,包括武汉CDC、汉口火车站等地点都是“人工挑选”的,也可能遗漏了其他潜在的地点。
UTM坐标体系中的各个地点
而Science论文的问题出在:将目光局限于华南海鲜农贸市场,没有考虑其他可能性。
他们认定了华南海鲜农贸市场,而将其他所有潜在的起源地都排除在外。研究人员声称,除了市场之外,没有其他地点与早期新冠病例有明显的流行病学联系。那么反过来说,如果能找到阳性病例与任何一个地标之间的流行病学联系,这些地标也可能成为新冠大流行的起源地。
此外,Science论文中论述的“新冠确诊患者与市场之间存在直接联系”也无法很好地站得住脚。比如:患者1距离市场2.31km,研究者认为该距离明显短于“根据人口密度随机生成的点”到市场的距离。但如果这么看,市场附近的任何地点都在流行病学上与该患者有联系。另外,患者2居住在市场附近的一家酒店,距离市场非常近,但为什么不是酒店本身呢?
当然,本研究表示,他们并不否认市场与病例之间存在疾病学联系的可能性,只是想说明Science论文中的假设和检验均不可靠。
其实,无论是采用中心点(Center-point)、形心(Centroid)和众数(Mode)作为病例的“中心(Center)”来分析,都无法很有效地估计大流行起源地。也就是说,空间数据恐怕无法回答这个问题,因此目前仅停留在“初步探索”阶段。
重新分配样本之后得到的分析结果
问题三:
使用蒙特卡洛检验得出“除了海鲜市场之外,没有其他地点可作为疫源地”的结论是有缺陷的
Science论文中关键问题在于:假设表述不当和检验方式有误。
首先,在描述假设的时候,Science原文中提到“依据武汉人口密度的经验零值分布,我们还调查了12月新冠感染病例是否比预期更靠近市场,其距离华南市场的中位距离为16.11km。”但全文没有阐明“经验零值分布(Empirical null distribution)”的含义。
其次,从数理统计学角度来看,Science论文中采用了蒙特卡洛检验来进行数据分析。通过模拟与武汉市人口密度(按年龄组加权)成正比的强度函数的非齐次泊松过程,生成了155个病例的r人工模拟图。在每个图案中,确定了从市场到病例的155个距离,并计算出这些数据的中位数。
在最先的同行评议版本中,r值是缺失的;但在预印本中,r=1000。由于论文中没有进一步解释p值是如何得到的,因此研究者自然而然地假定分析方法采用的是标准蒙特卡洛检验法。也就是说,将155个病例的r模拟中值与观察到的中值距离m0按照递减顺序排列,而蒙特卡洛p值的计算方法为:m0在这该系列中的排名除以r+1。
Science中的空间分析
针对上述统计过程,本研究提出三点质疑:两个技术性和一个根本性。
正如前面提及的那样,技术性上来看,模拟的图案并非早期新冠感染者居住地址的典型图案,该模型可能不太适合具有高度传染性的疾病;假设的表述不够恰当,包括零假设的不准确性和检验统计量m0在模拟的零模型中并未起到作用。
因此,蒙特卡洛检验得出的“较小p值”,无法证明“华南市场在疫情中起到关键作用”。
最后一点,也是根本性问题。具体来说,对于包括新冠病毒在内的传染性疾病,病例地点的空间模式应该是集群的,但如果将155个集群随机放置在武汉市的整个区域内,那么集群恰好落在市场附近位置的概率非常小。
这意味着,Science论文中提出的零假设几乎总是会被检验统计量所拒绝。即使不选定“市场”,换成“CDC”“火车站”,最终都会得到同样的情况:拒绝零假设。
换言之,Science中的检验程序就是不可接受的,即它甚至不支持人畜共患病假说(根本上就是不成立的)!
综上所述,Science论文分析无法证明“华南海鲜批发市场是155名新冠病例的风暴中心”,其他临近的地点或者地标(如万达广场、酒店等)同样可以作为病例发源地。
距离新冠疫情的伊始已有四年多时光,但其准确的起源地依然没有盖棺定论,那就让子弹再飞一会儿吧......
参考资料:
[1]Worobey M, Levy JI, Malpica Serrano L, Crits-Christoph A, Pekar JE, Goldstein SA, Rasmussen AL, Kraemer MUG, Newman C, Koopmans MPG, Suchard MA, Wertheim JO, Lemey P, Robertson DL, Garry RF, Holmes EC, Rambaut A, Andersen KG. The Huanan Seafood Wholesale Market in Wuhan was the early epicenter of the COVID-19 pandemic. Science. 2022 Aug 26;377(6609):951-959. doi: 10.1126/science.abp8715. Epub 2022 Jul 26. PMID: 35881010; PMCID: PMC9348750.
[2]Dietrich Stoyan, Sung Nok Chiu, Statistics did not prove that the Huanan Seafood Wholesale Market was the early epicentre of the COVID-19 pandemic, Journal of the Royal Statistical Society Series A: Statistics in Society, 2024;, qnad139, https://doi.org/10.1093/jrsssa/qnad139
[3]Holmes EC, Goldstein SA, Rasmussen AL, Robertson DL, Crits-Christoph A, Wertheim JO, Anthony SJ, Barclay WS, Boni MF, Doherty PC, Farrar J, Geoghegan JL, Jiang X, Leibowitz JL, Neil SJD, Skern T, Weiss SR, Worobey M, Andersen KG, Garry RF, Rambaut A. The origins of SARS-CoV-2: A critical review. Cell. 2021 Sep 16;184(19):4848-4856. doi: 10.1016/j.cell.2021.08.017. Epub 2021 Aug 19. PMID: 34480864; PMCID: PMC8373617.