SPSS在线_SPSSAU_Poisson检验

Poisson检验

分析方法视频解读：B站优酷

案例数据下载下载

Poisson分布是指这样一类数据，其发生频率很低但通常一定会发生而且发生的概率还比较稳定，如果想检验数据是否符合Poisson分布，其共有两种检验方式，一种是通过特征判断；另外一种是通过Poisson检验。在现实研究中，可能更多会通过特征进行判断是否基本符合Poisson分布。如果是使用特征判断，数据需要满足三个特征即：平稳性、独立性和普通性，分别如下：

平稳性：发生频数的大小，只与单位大小有关系（比如1万为单位，或者100万为单位时患癌症人数不同）；

独立性：发生频数的大小，各个数之间没有影响关系，即频数数值彼此独立没有关联关系；比如前1小时闯红灯的人多了，第2小时闯红灯人数并不会受影响；

普通性：发生频数足够小，即低概率性。

特别提示：
Poisson分布数据一定是指每单位内的发生频数，比如某个路口每天闯红灯的汽车数量；一年内每万人中丢手机的频数等；
SPSSAU提供非加权和非加权两种数据格式，均可进行SPSSAU的Poisson检验。类似下表格中，研究人员观察某路口每天闯红灯的车辆数量，总共观察100天，因而得到100个样本数据，但100个数据最终进行汇总。一列表示‘闯红灯的数量’，另外一列表示有几天出现该种情况。

闯红灯车辆数量	频次
0	3
1	3
2	5
3	8
4	15
5	16
6	15
7	11
8	10
9	8
10	6

Poisson检验案例

1、背景

某研究人员观察某路口每天闯红灯的车辆数量，总共观察100天，因而得到100个样本数据，最终针对100个数据最终进行汇总如下表。一列表示‘闯红灯的数量’，另外一列表示有几天出现该种情况。此种数据为‘加权格式’数据，如果有100行数据代表100天，只有一列表示该天闯红灯车辆数量，此为‘非加权格式’数据。

闯红灯车辆数量	频次
0	3
1	3
2	5
3	8
4	15
5	16
6	15
7	11
8	10
9	8
10	6

2、理论

Poisson数据是指低概率事件的发生频数；这里的低概率是指单位时间内发生的数量非常少，通常仅为个位数，比如每场球赛的进球数量。在进行Poisson检验时，原理上是首先计算数据平均值，接着利用公式去计算出理论频数（如果是Poisson分布应该的发生频数），然后求解理论频数与实际频数的差值，并且进行平方，得到卡方值，最终利用卡方值（并结合自由度df 值）输出p 值，用于判定数据是否为Poisson分布。
在计算各个类别的理论频数之前，首先需要确认好各个类别，SPSSAU默认会对数据进行分类处理，规则如下：
- 如果数据中的最大数字小于20（比如最大为10），则连续性输出0到9共10个数字的实际频数和期望频数，数字最大值10，作为>=10单独作为一个类别计算实际频数和期望频数；
- 如果据中的最大数字超过20（比如最大为30），则连续性输出0到20共21个数字的实际频数和期望频数，并且余下的数字全部处理为>=20归为一类计算实际频数和期望频数。
- 特别提示，检验数据很可能并不是连续的，但输出结果会按照连续数字输出，因而有很多数字的实际频数会为0，但期望频数不为0，这是正常现象且一定需要这样。比如原始数字只包括1，3，5，7；SPSSAU会输出0，1，2，3，4，5，6，>=7共8个类别数据的实际频数和期望频数。
3、操作

本次数据格式为加权格式数据，操作如下图，‘频数’放入‘权重’框中，如果‘权重’框中不放入项，默认SPSSAU认为是‘非加权数据格式’。

4、SPSSAU输出结果

SPSSAU共输出一个表格，包括各类别的实际频数和期望频数，以及卡方值和p 值。如下表：

分析项Poisson分布检验结果
名称	选项	实际频数	期望频数	χ² 值	p 值
闯红灯车辆数量	0.0	3.000	0.385	20.871	0.013*
	1.0	3.000	2.140
	2.0	5.000	5.949
	3.0	8.000	11.025
	4.0	15.000	15.325
	5.0	16.000	17.042
	6.0	15.000	15.792
	7.0	11.000	12.543
	8.0	10.000	8.718
	9.0	8.000	5.386
	>=10.0	6.000	5.695
* p <0.05 ** p <0.01

5、文字分析

分析项Poisson分布检验结果
名称	选项	实际频数	期望频数	χ² 值	p 值
闯红灯车辆数量	0.0	3.000	0.385	20.871	0.013*
	1.0	3.000	2.140
	2.0	5.000	5.949
	3.0	8.000	11.025
	4.0	15.000	15.325
	5.0	16.000	17.042
	6.0	15.000	15.792
	7.0	11.000	12.543
	8.0	10.000	8.718
	9.0	8.000	5.386
	>=10.0	6.000	5.695
* p <0.05 ** p <0.01

针对闯红灯车辆数量进行泊松分布检验，从上表可以看出：闯红灯车辆数量全部均呈现出显著性(χ²=20.871，P < 0.05)，意味着拒绝原假设(原假设：数据泊松分布)，闯红灯车辆数量全部均不具有泊松分布特质。另外可针对图形进行直观展示实际频数和期望频数的差异性。如下图：

从上图可以看到，发生0次的实际频数为3，但理论频数为0.38次；发生9次的实际频数为8，但理论频数为5.39。另特别提示：从图形上看，实际频数和理论频数差别并不明显，但检验显示无法通过Poisson检验说明不是Poisson分布数据，这种情况较为正常，Poisson检验对于数据分布要求严格，因此稍微一点的差别均为判定为非Poisson分布，建议研究人员可以考虑结合Poisson分布的3个特征进行判定是否为Poisson分布数据。

6、剖析

涉及以下几个关键点，分别如下：
- Poisson分布数据一定是指每单位内的发生频数，比如某个路口每天闯红灯的汽车数量；一年内每万人中丢手机的频数等；
- Poisson检验共有两种检验方式，一种是通过特征判断；另外一种是通过Poisson检验。在现实研究中，可能更多会通过特征进行判断是否基本符合Poisson分布。
- SPSSAU提供非加权和非加权两种数据格式，均可进行SPSSAU的Poisson检验。
关于‘加权数据格式’的详细说明参考：https://www.spssau.com/helps/otherdocuments/dataformat.html

Poisson检验

分析方法视频解读：B站优酷

案例数据下载 下载

特别提示：

Poisson检验案例

1、背景

2、理论

3、操作

4、SPSSAU输出结果

5、文字分析

6、剖析

案例数据下载下载