医学里那个 p 值,有时候听起来挺玄乎,实际上说白了就是个“运气测试”。 想象你在灶台间里刚煮了一锅汤,认定咸淡对味,立马放个勺子尝一口,认定挺舒服,心里想着“这汤真不错”,然后顺手往“好吃”的标签上戳个叉。
这时候你心里想的是“这汤真不错”,但要是你突然拿出一把尺子量一下这勺汤的体积,发现居然只有 1/4 个碗那么大,这时候那个“好吃”的标签就得翻篇儿了,出于你发现这根本不是啥好汤,而是一勺。p 值就是那个用来量体积的尺子,它告诉你,你观测到的那个结局,在概率上离“恰好形成”有多远。
要是这个结局形成的概率高到一定程度,比如 98%,那我们就说这是“偶然”;要是只有 1% 的概率才如此巧合,那我们就说这是“必然”,要么起码是我们该挺住的了。 大量人一听 p 值就头晕,认定那是统计学的黑魔法,认定医生说 p 值小于 0.05 就是真理,大于 0.05 就是假象。但这事儿没那么好办,出于 p 值不是真理的标尺,而是证据的锤子。它衡量的是你在重复试验里,再次拿到彻底一样的结局需求花多大的代价。
比如你为了验证某个药能不能治病,抽了 1000 份病人,结局发现这 1000 份里,有 50 个人好了。你心里想:这药真神?那我把这结局再写一遍,全世界其他人也跟着看着我做同样的实验,大约有 500 个人也会变好?要是我算出来这个概率只有 0.03%,那我得说,这药可能真有点用,起码不是纯运气。但要是我算出来只需求 20% 的概率都能如此说,那我就要质疑:这 50 个人是不是碰运气凑出来的?可能确实没人好,只是我碰巧发现了 50 个?这时候,p 值就是那个冷冰冰的过滤器,它帮你把“幸存者偏差”和“真事故”分个清楚。 那如何才算 p 值小?
如何才算大?这实际上就取决于你对“偶然”的定义。
要是我说“这局牌我打得贼精彩”,那么只要对手打得好,我打出好的牌的概率就挺大,这概率可能直接大过 0.9。但医学上,我们更关心的是“黄了”的概率。
比如我要说“这个手术根本没用”,那我期望的是,哪怕我抽到最顶尖的手下,也打不出好结局。
要是我用小样本,一个就成功了,我就得说“运气忒好了,这手术没用”。
要是我用大样本,一个也黄了了,那我就说“这手术大约率没用”。p 值实际上就是看你抽到这种极端结局的概率有多大。
要是概率大,说明你挺可能只是碰运气;要是概率小,说明你的观察结局大约率是真的。 举个具体的例子,这就好比你要验证一种新的减肥药。你拿了几十个小瓶子做实验,结局发现这 30 个瓶子里,70% 的人都瘦了。你可能高兴坏了,心想“这药真神啊,我立马就推荐大家买”。
这时候要是有人拿着计算器,问:“要是你把这数据再录一遍,全世界 5 万人也一起用这个药,大约再有几个人能瘦下来?” 要是你算出来概率是 60%,那你就能够放心地持续推荐,出于剩下的 40% 也不算啥,可能是你样本量忒小,要么别人的运气更差一点。但要是你算出来概率只有 8%,那这就有点尴尬了,这不代表这药没用,而是说明你的样本量还不够“准”。
或许这药只是治了 50% 的人,剩下的 50% 就是一般/平平人,只是你少见的运气让它看起来效果拔群了。
这时候,p 值就帮你把“偶然”和“必然”做了算术比赛。 实际上,p 值还有一个常被误解的地方,就是它和“关键性”没关系。大量人一看到 p 值小,就认定“哇,这个发现挺关键”。但这彻底行不通。p 值小只代表这个结局在统计上显著,不代表它有多大意义。
比方说,我推了一辆脚踏车下山,只要 10 秒,那对骑脚踏车的人来说,这脚踏车可能就是个玩具,出于 99% 的人都比 10 秒更快。但要是我推的是个石头,10 秒也跑不过,p 值可能也就 0.06,这时候大家会认定这石头挺有意思的,起码你比石头快。在这个例子里,p 值只是告诉你“这事儿离巧合的程度”,至于你是不是确实发现了新大陆,还得看试验本身做得对不对,样本够不够大,有没有选错地方。 再深一层想,p 值就连有点像是在玩掷骰子。你掷一次骰子,点数是 6,这概率只有 1.5%,我们说这是“奇迹”。你是掷 100 次骰子,发现全都是 6,那这时候的概率是不是变成了"1.5% 的 100 次方”?这概念忒高超,但逻辑就通顺了。医学里,我们每天都在做这种“掷骰子”。我们想验证某种疗法的效果,我们人为地制造出大量类似的“骰子”(病人),然后看结局是 6 的概率是多少。
要是这个概率大到离谱,比如 0.4,那我们当作这疗法没用,出于忒常了;要是这个概率小到离谱,比如 0.0001,那我们就信当作真。p 值就是那个“离谱”程度的量尺。 实际上,p 值最大的功能,不是让我们信任某个结论,而是让我们知道“我们目前的结论,是不是忒离谱了”。
要是 p 值挺小,说明你目前的结论忒离谱,离纯运气忒近了,故此我们要贼谨慎地看待这个结论,把它当成真事儿去验证。
要是 p 值挺大,说明你目前的结论离纯运气不远了,可能只是碰巧从一堆乱七八糟的结局里捞出来的,这时候我们要停下来,问问自己,是不是样本忒少、是不是样本本来就不好、是不是方式本身就有难题。
这时候,p 值就是那个“红绿灯”,告诉我们要更小心一点,去排查缘由,而不是直接下结论。 总的来说,p 值就是统计学里那个最酷的“偶然度”测试。它不直接回答“对不对”,而是回答“这事儿够不够假”。在医学里,我们不在乎结局有多完美,在乎的是我们能不能排除掉那些由运气带来的完美。
只有当我们排除了运气,剩下的那个结局,才是我们该去信任的科学发现。p 值就是那个帮我们做这个排差的标尺,别看它挺冷冰冰,但它让我们在面对医学奇迹时,多了一份清醒和谦卑。
毕竟,能比 10 秒跑得快,也是一种运气,不是吗?