无效样本

  • 在数据分析之前,首先需要进行数据查看,包括数据中是否有异常值,无效样本等。如果有无效样本则需要进行处理,然后再进行分析。另外如果数据中有异常值也需要进行处理后再进行分析。无效样本会干扰分析研究,扭曲数据结论等,因而在分析前先对无效样本进行标识显示尤其必要。

  • 如果数据来源为问卷,则很可能出现无效样本,因为填写问卷的样本是否真实填写无从判定;如果数据库下载或者使用二手数据等,也可能出现大量缺失数据等无效样本。

    • 无效样本的常见使用场景:
    • 问卷研究中乱填问卷的样本;

    • 数据库下载的数据中有大量缺失数据;

    • 二手数据中包括无效或缺失数据;

    • 其它收集数据中有无效样本时。

    • 无效样本的使用注意事项:
    • 无效样本设置时,需要先选中需要处理的标题,如果是整份数据,则使用shift/ctrl批量选中全部标题即可;

    • 共两种设置标准:相同数字和缺失比例;

    • 相同数字:当选中标题中有(比如70%)均是同一数字时,标识为无效样本;此处70%并没有固定标准,人为设定。

    • 缺失比例:当选中标题中有(比如70%)均是缺失数据时,标识为无效样本;此处70%并没有固定标准,人为设定。

    • 无效样本设置后,可对“标识新标题”进行频数分析,了解无效样本数量等。

  • SPSSAU操作截图如下:

    上图显示将同一样本中,如果有超过70%的数字均相同,此时进行标识处理。SPSSAU会新生成一个标题,用数字0表示无效样本,数字1表示有效样本。后续分析时使用“样本筛选”功能,筛选出有效样本进行分析即可。

疑难解惑

  • 批量选中处理?
  • 针对数据标签,数据编码,生成变量,异常值和无效样本这五个数据处理功能,直接选中即可,不需要拖拽操作。配合ctrl或者shift键同时选择多项,批量一次性操作处理。

  • 无效样本的定义和处理?
  • 问卷中如果一个样本同时有很多相同的数字,或者很多不填空的缺失数据。此时说明该样本是无效的,可使用无效样本功能,一般以70%作为标准即可。

  • 特别说明,SPSSAU会新生成一个标题,名称类似为:“无效样本处理_****_1表示有效0代表无效”,那么后续的分析分析的时候则需要筛选出有效样本进行分析,即对新生成标题筛选出数字为1然后再分析。

  • 无效样本的标准如何设置?
  • 一般情况下,如果相同数字过多,或者样本缺失数字过多,都应该将该样本设置为无效样本,无效样本的设置没有固定标准,一般情况下如果相同数字大于70%,或者缺失比例高于70%,均应该将该样本设置为无效样本。

  • 完成无效样本设置后,SPSSAU会新生成一个标题用于标识有效还是无效样本,名称类似为“无效样本处理_****_1表示有效0代表无效”【数字1表示该样本有效,0表示无效】,在后续分析的时候,需要对此标题进行筛选【筛选样本功能】,筛选出有效样本(数字1)然后再进行分析;

  • 同时用户如果需要使用原始数据,可通过右上角‘我的数据->下载’,将原始数据下载使用。

  • 无效样本设置的标准如何?
  • 无效样本没有固定的标准,常见情况下如果相同数字大于70%,也或者缺失比例大于70%时,则视其为无效样本,这是常见的经验式标准而已。通常情况下,研究者需要结合实际情况,比如自身样本量多少等进行设置尝试即可。如果样本过多而且对样本信心不足则设置更高的标准,比如50%的相同数字。如果样本较小且对样本有信心则按照常见标准进行即可。

  • 如何删除无效样本?
  • 完成无效样本处理后,SPSSAU会新生成一个标题用于标识有效还是无效样本,名称类似为“Invalid_****_1表示有效0代表无效”【数字1表示该样本有效,0表示无效】,在后续分析的时候,只需要对此标题进行筛选【筛选样本功能】,筛选出有效样本(数字1)然后再进行分析即可;并不需要手工直接把无效样本删除掉,而是使用筛选功能进行筛选过滤掉无效样本即可,比如下图。

  • 如何直接删除无效样本?
  • 无效样本处理时,处理方式上支持‘标识新生成标题’,或者直接‘删除无效样本’。需要特别谨慎‘删除无效样本’操作,一旦把无效样本删除,该操作无法撤回。建议在做此分析前对数据进行备份(右上角‘我的数据’->备份)。