800名科学家Nature联名发文主张废除p值！

每年，全球稀有百万学生修读核算学课程。随着世界上的数据量越来越大，核算学已成为越来越受欢迎的话题。假如大多数学生都从这门课中记住一点，那或许便是“核算明显性”和“ p 值”的概念。

这两个概念一般用于量化研讨成果是否是偶尔产生的问题。例如，某公司想要衡量两个不同广告投放到 Facebook 上的影响。他们发现，一个广告吸引了 10%的用户点击，而另一个广告吸引了 8%。为了弄清楚这种差异是确有含义，仍是偶尔产生，就或许会进行核算学测验，看看成果是否“明显”。假如 p 值大于 0.05，则判定为偶尔，不然以为这个差异确有含义。一般，很多商业和医学上的决议计划都是根据这个“5%原则”制定的。

“核算明显”和 p 值的来源：从“主张”到“金规范”

“明显”一词最早见于 19 世纪 80 年代，英国经济学家和核算学家弗朗西斯·埃奇沃思（Francis Edgeworth）在核算查验中首次运用该词。据核算学家格伦·谢弗（Glenn Shafer）称，其时运用这个词的办法与今天不同。Edgeworth 评论了这个词有多大几率“标志”了有含义的差异。其时 Edgeworth 将一项发现称为“或许明显的”或“必定明显的”。

罗纳德·菲舍尔（Ronald Fisher）

1925 年，英国遗传学家、核算学家罗纳德·菲舍尔（Ronald Fisher）出书《研讨者的核算办法》（Statistical Methods for Research Workers）一书。这本书奠定了他现代核算学之父的地位。他在书中着重讲到研讨人员应如何将核算查验理论应用于实践数据，以便根据数据得出他们所发现的定论。当运用某个核算假定来做查验时，该查验能够概述数据与其假定的模型之间的兼容性，并生成一个 p 值。

菲舍尔主张，为便利起见，能够考虑将 p 值设为 0.05。关于这一点，他专门论说道：“在判断某个误差是否应该被以为是明显的时分，将这一阈值作为判断规范是很便利的。”他还主张，p 值低于该阈值的定论是牢靠的，因而不要把时间花在大于该阈值的核算定论上。菲舍尔的这一主张被越来越多的人所承受，p<0.05 逐步与“核算明显性”画上了等号，成为“明显”的数学界说。

到 20 世纪中叶，研讨人员开端称某项成果“高度明显”或“简直不明显”。“明显”一词变得更像是主张，而不是判断 。后来， 核算明显性和 p 值由于规范清晰、核算便利逐步成为衡量科学研讨牢靠性的重要规范。

Nature 发文：是时分抛弃“核算明显性”了！获 800 人签名支撑

今年 3 月，学者 Valentin Amrhein，Sander Greenland 和 Blake McShane 提出，假如没有这个概念或许会更好。他们期望“核算学明显”这个概念应该退出历史舞台，他们的观念得到很多人的支撑。他们在《天然》期刊上撰文，要求将“核算明显”这个词从核算学中去掉，此文 取得 800 多位学者的签名支撑，其中不乏量化和核算学范畴的重要人物。

他们的这篇文章名为《科学家们起来对立核算学含义》（Scientists rise up against statistical significance）。

标题犹如战斗檄文相同令人振奋。在文章发出不到 24 小时，就有 250 多人签名支撑，一周之内吸引了超过 800 名研讨人员共同对立。

大学里十分困难听懂的核算学，会变成一件没“含义”的工作吗？

为什么要抛弃核算学明显性的概念？

几代人以来，研讨人员一直被警告说：核算上不明显的成果并不能“证明”零假定 （即假定各组之间没有差异，或许某个处理办法对某些测量成果没有影响）。 核算上明显的成果也不能“证明”其他一些假定。这种误解用夸张的观念歪曲了文献，而且导致了一些研讨之间的抵触。

三位核算学家提出一些主张，让科学家们不至于成为这些误解的牺牲品。

首先清晰有必要中止的事：永久不该该只是由于 P 值大于阈值 (如 0.05) 就得出“没有差异”或“没有相关”的定论；或许，只是由于置信区间包括 0 就得出这样的定论。

同时，咱们也不该该判定两项研讨之间存在抵触，只由于其中一项研讨的成果具有核算学含义，而另一项则没有。这些过错浪费了研讨工作，误导了政策决议计划。

当区间估计包括严峻的风险增加时，得出定论以为核算上不明显的成果显现“无相关”是荒谬的；相同荒谬的是，声称这些成果与先前研讨中显现相同观察作用的成果相反。然而，这些常见的实践表明，依赖核算含义上的阈值会误导咱们。

谨防过错定论

这些过错以及类似的过错普遍存在。对数百篇文章的调查发现，核算上不明显的成果被解说为“没有差异”或“没有影响”的约有一半。

Amrhein，Greenland 和 McShane 以为，根据规矩的思维是“核算明显性”的最大问题。他们以为：“费事是人为的和认知层面的，而不是核算学上的：将成果分类为 ’ 核算明显 ’ 和 ’ 核算不明显 ’，使人们以为以这种办法区分的对象属于不同类别。”

这种对“核算明显性”的二元化规范的严峻依赖，或许导致对医学和社会科学新发现的实在性决心不足甚至损失。

形成这个问题的重要原因是，核算明显性的重要性被过分夸张。2015 年，可重复性危机项目（现为敞开科学中心）展开了一项实验，对 100 篇重要的社会心理学论文进行了重复性查验，成果发现只要 36.1%的论文的定论能够被重复出来。2018 年，社会科学可重复性项目评估了《天然》与《科学》在 2010 年至 2015 年间宣布的 21 项社会科学实验研讨的可重复性。他们发现，与原研讨相比，其中只要 13 项研讨中（约占总研讨的 62%）的重复实验产生了明显成果。

研讨人员不该考虑成果是否“核算明显性”，而是应该对成果进行成本效益分析，由于微乎其微的成果或许依然有用。比如实验性抗癌药物与安慰剂之间的差异为阳性，但达不到核算学明显的规范，这时将该药物提供给某些患者依然是值得的，尤其是药效取得强理论支撑的状况下。也便是说，应该根据成果有用的或许性来评论成果，而不是看是否满意一些核算阈值。

对立定见：抛弃 p 值，“无可辩驳的废话”将充满期刊

不过，并非一切人都以为应该撤销“核算明显性”的概念和 p 值。核算学家、斯坦福大学教授约翰·约阿尼迪斯（John Ioannidis）便是其中之一。他曾对 Nature 这篇文章表达了清晰的质疑，并撰文总结了与该文作者 Sander Greenland 和 Blake McShane 的商讨内容。他以为，建立必定的门槛是有必要的，假如没有“核算明显性”作为边界，那么简直任何成果都或许会宣布，“无可辩驳的废话”将会占据控制地位。”

“抛弃核算学含义”真的是个好主意吗？John Ioannidis 列举了他对 Nature 那篇引发大评论的文章的不同定见：

1. Natue 文章的陈说(以下简称“陈说”)：核算上明显的成果也不能“证明”其他一些假定。这种误解用夸张的观念歪曲了文献，而且导致了一些研讨之间的抵触。

该陈说的 误导性 在于：彻底删去“核算学含义”将使任何人都能够对任何成果作出任何夸张的说明。假如删去了核算学含义，也或许有助于在研讨之间的确存在抵触时声称不存在抵触。

2. 陈说：让咱们清晰什么是有必要中止的工作：咱们不该该只是由于 P 值大于阈值 (如 0.05) 就得出“没有差异”或“没有相关”的定论；或许，只是由于置信区间包括 0 就得出这样的定论。

该陈说的 误导性 在于：在大多数科学范畴，咱们需求得出定论，然后传达咱们对定论的不确认性。关于如何得出定论，清晰的、预先规定的规矩是必要的。不然，任何人都能够一句自己的奇想得出任何定论。在许多状况下，运用满足严厉的 p 值阈值（例如，关于许多学科而言为 p = 0.005）对错常有含义的。咱们需求做出一些谨慎的挑选，然后继续前进。严厉地说，说任何和一切的联络都不能被 100% 扫除是正确的，但实践上这是无稽之谈。假如废除了 p 值，科学将堕入瘫痪，由于咱们不能扫除一切或许导致任何工作的或许性。

3. 陈说：有 XX% 的论文将核算上不明显的成果解说为“没有差异”

该陈说的 误导性 在于：在许多 / 大多数 / 一切的状况下，这或许都是彻底恰当的，咱们有必要细心检查每个 case。剩下的 100-XX% 中的一些 / 许多没有被解说为“没有差异”，这或许至少是不恰当的。

4. 陈说：编辑们在介绍这期特刊的时分谨慎地说，“不要说’核算含义严重’”。另一篇数十人署名的文章呼吁作者和期刊编辑否认这些言论。咱们同意并呼吁抛弃核算含义的整个概念。咱们并不是要抛弃 p 值，而是呼吁中止以传统的二分法运用 P 值——来决议成果是辩驳仍是支撑一项科学假定。

误导性 在于：我以为在评论关于科学办法的议题时呼吁“签名”是不恰当的。咱们的确需求在大多数状况下非黑则白地得出定论：这种基因变异是否会导致郁闷？我应该花 10 亿美元来开发根据这一途径的医治办法吗？这种医治是否有用？污染物是否会致癌?

5. 陈说：例如，得到 P = 0.03 和 P = 0.06 之间的差异与一次均匀抛硬币得到正面和不和之间的差异相同。

误导性 在于：这个比如事实上是过错的；只要在咱们确认其影响的确对错空的状况下才建立。

6. 陈说：一种实用的办法是将置信区间从头命名为“兼容区间”(compatibility intervals)……

误导性 在于：在当前的紊乱局势下，还要添加一个新的、特别的术语吗？“兼容”甚至是一个糟糕的挑选，或许比“置信”更糟糕。由于存在误差，成果或许是彻底过错的。假如存在误差，X% CI(无论 C 代表什么)或许在很多状况下甚至都不包括真值。

7. 陈说：咱们主张作者描绘区间内一切值的实践含义，特别是观察到的作用和极限。

误导性 在于：我以为，更重要的是考虑或许存在哪些误差，哪个误差或许导致整个区间违背，并因而与事实不符。

8. 陈说：与 0.05 的阈值相同，用于核算区间的默许 95% 本身也是一种任意约定。

误导性 在于：的确如此，但这意味着更适宜的 P 值阈值和 X%CI 区间是更可取的，这些需求预先细心确认。不然，假如都过后确认，研讨者的任何先入之见都是能够“支撑”的。

9. 陈说：诸如布景证据、研讨设计、数据质量和对潜在机制的理解等要素往往比 P 值或区间等核算衡量更重要。

误导性 在于：尽管听起来很合理，一切这些要素都很重要，但大多数要素一般都是片面的。相反，核算分析至少具有必定的客观性。假如在收集数据和运转分析之前细心设置规矩，那么根据某些阈值 (p 值、Bayes 因子、FDR 或其他) 的核算指导或许是有用的。不然，核算推断也变成了彻底是过后的、片面的。

10. 陈说：咱们听到的对立抛弃核算学含义的定见最多的是，科学研讨需求做出是或否的决议。可是，关于监管、政策和事务环境中经常需求做的挑选，根据成本、收益和一切潜在后果的或许性来做决议计划总是胜过仅根据核算明显性做的决议计划。此外，关于是否进一步做某个研讨的决议，p 值与后续研讨的或许成果之间没有简单的联络。

误导性 在于：这种说法等同于无稽之谈。的确，在大多数状况下需求作出是 / 否的决议，这便是为什么删去核算学含义杯水车薪。它会导致“一切皆有或许”的状况。关于需求做出决议的问题，研讨设计需求提早 (尽或许提早) 考虑一切其他参数，并设置一些预先指定的规矩，确认哪些是“成功”/ 可操作的成果，哪些不是。这能够根据 p 值、贝叶斯因子、FDR 或其他阈值或其他函数。但游戏需求一些规矩才干公正。不然，咱们将堕入比现在更紊乱的局势，由于片面解说现已比比皆是了。例如，任何公司都能够声称其产品的任何实验成果的确支撑其申请专利。

John Ioannidis 教授总结道：Nature 的这篇评论根据一种潜在的信念，即在核算学 p 值之外，还存在无数实在、重要的影响，而咱们过错地疏忽了它们。但主要问题恰恰相反：有无数关于相关和影响的谬论，一旦宣布，就很难脱节。三位核算学家呼吁抛弃“核算学含义”，将使那些试图通过篡改核算数据来做弊的人非常高兴，由于现在他们底子不必忧虑核算数据了。彻底脱节核算学含义和预设的、经过细心考虑的阈值，有或许使谬论变得无可辩驳。

总的来看，现在关于“核算明显性”的根深蒂固的想法还不会很快消失。核算明显性关于定量分析依然非常重要，现在，美国核算协会和英国皇家核算协会的官方期刊都以这个词（Significance）命名。

参考链接：

https://qz.com/638059/many-scientific-truths-are-in-fact-false/

https://www.nature.com/articles/d41586-019-00857-9?from=singlemessage&isappinstalled=0#ref-CR4

https://statmodeling.stat.columbia.edu/2019/03/20/retire-statistical-significance-the-discussion/

https://qz.com/1729049/the-origins-of-the-concept-of-statistical-significance/