泊松分布的现实意义是什么,为什么现实生活多数服从于泊松分布?
分享一个特别到位的现实例子。
2012年12月,美国康涅狄格州发生校园枪击案,致28人死亡。
这并不是第一次,自1982年至2012年,美国共发生62起(大规模)枪击案。
但是——2012年是有记录以来最暴力的一年:有7次大规模枪击事件。
我们都知道,在统计学上,只要某类事件满足三个条件——小概率事件、独立、稳定,它就服从"泊松分布"。
如果美国大规模枪击满足泊松分布:
(1)枪击案是小概率事件。
(2)枪击案是独立的,不会互相影响。
(3)枪击案的发生概率是稳定的。
第三个条件是关键。成立,就表示美国的治安没有恶化;一旦不成立,则说明枪击案的发生概率不稳定,正在提高,美国治安恶化。
那么,2012年,是一个异常值,还是仅仅因为偶然?
有人结合泊松分布分析了这个事件。
首先,我们罗列出——31年来枪击案的分布情况,如表1所示:
(表一)
根据泊松分布公式,计算得到泊松分布的期望平均值:平均每年发生2起枪击案,λ = 2。那么表1中的实际值,与泊松计算出的平均值2是否一致?
为了找到答案,将这些数据与泊松分布曲线进行比较,如下图:
- 蓝色柱形代表实际值。即表1,发生0~7次枪击案的实际年数。
- 红色虚线曲线就是泊松分布曲线。是人们期望的随机结果。
(表二)
从表2可以看出:红色曲线类似柱形趋势,也就是说,实际观察值与期望值相当接近。
但仅从图上看——两者并不完全相符。
因此为了确认最终答案,我们要对“泊松预期年数和实际年数”使用卡方检验来测试——看两个分布是否有显著差异:
- 最右侧为泊松预期值,即:按照随机,不同次数下的预期发生年数
计算发现:卡方统计量9.82,p值为0.18。这是什么意思?
P>0.05 表示无显著性差异,接受原假设;
0.01<P<0.05 表示显著性差异,拒绝原假设;
它直接表明:
1982 - 2012年发生的大规模枪击事件符合泊松分布,可以接受“发生枪击案的概率是稳定的"假设,也就是说,从统计学上无法得到美国治安正在恶化的结论。
也必须看到:
卡方统计量9.82离临界值很接近,P值只有0.18。这意味着:对于"美国治安没有恶化"的结论,我们只有82%的把握,还有18%的可能是美国治安实际上正在恶化。
到底是否正在恶化,还需要看两年内会不会再次出现像2012年一样的极端情况。一旦发生,泊松分布就不成立了。
但用泊松分布分析枪击案的意义不止于确定了枪击事件的稳定性。
它透出了泊松分布的作用和初衷:
我们不得不关注极端事件。用Steven Pinker的话来说,“我们通过生动的例子来估计风险”。
但是,尽管我们应该尽量防止这些可怕的极端事件发生,但我们不应该将它们作为推断决定政策的唯一依据。异常值是整个故事的悲剧部分,但我们还需要关注其余的分布。
以上内容由简道云原创整理分享。
数据分析那么艰难,数据搜集处理必须简单点: