数据编码

  • 1、说明

    数据编码用于数据组合,比如1代表高中,2代表大专,3代表本科,4代表硕士,5代表博士。希望组合成三组分别是:本科以下,本科,硕士及以上.则可处理为:1->1,2->1,3->2,4->3,5->3,最终数字1代表本科以下,2代表本科,3代表硕士及以上(系统会新生成标题,可使用‘标题修改’功能修改)。数据编码通常在以下情况会使用:

    • 数据组合(类似例子中学历组合)

    • 反向题处理

    • 特别提示
    • 数据编码后,系统会新生成数据,而非原始数据基础上修改。 另外,用户可通过Ctrl或者Shift键同时选中多个标题;进行批量化处理。

    • 如果希望直接覆盖原始数据,请将“覆盖”按钮打勾即可【此操作不可逆,非专业用户请慎重操作,建议可先进行数据备份再操作】。

  • 2、举例

疑难解惑

  • 数据标签和数据编码?
  • 计算机对于数据的存储上,只会存储数字,因为数字才能加减乘除等。但数字是有实际意义的,此时就可以使用数据标签功能,标识出数字代表的意义。而且具体数字代表的意义只有分析人员才知道。

  • 数据编码是指改变原始数据,相当于‘替换’的功能,比如数字1编码为3,意味着原始数据中的1直接就变成3(SPSSAU默认是新生成标题表示编码后的标题,也可以选择‘覆盖’功能,直接在原始数据上修改)。 数据编码是指改变原始数据,相当于‘替换’的功能,比如数字1编码为3,意味着原始数据中的1直接就变成3( SPSSAU默认是新生成标题表示编码后的标题,也可以选择‘覆盖’功能,直接在原始数据上修改)。

  • 数据标签和数据编码完全是两回事情,请勿混淆。一般数据编码之后新生成标题,则需要做下数据标签。

  • 反向题如何数据编码?
  • 如果是反向题,可如下图操作,同时也可以选中‘覆盖’功能(如果不选中,则会新生成标题,如果选中建议先使用‘数据管理’->备份下数据防止出错)。特别提示,可配合ctrl或者shift键同时选择多个标题,批量一次性操作。【另如果发现少了某个数字,这是因为原始数据中没有该数字即没有样本选择该项】

  • 数字编码和范围编码?
  • SPSSAU提供数字编码和范围编码两种方式。范围编码是指在某个区间的数据编码成某个数字,如下图:

  • 批量选中处理?
  • 针对数据标签,数据编码,生成变量,异常值和无效样本这五个数据处理功能,直接选中即可,不需要拖拽操作。配合ctrl或者shift键同时选择多项,批量一次性操作处理。

  • 自动分组是什么意思?
  • SPSSAU提供4类自动分组编码方式,方便研究者直接点击式使用,当然也可以使用范围编码实现,只是自动编码会更加便捷。SPSSAU当前共提供4种自动编码方式,包括如下:

  • 按27%和73%分位数,将数据分成3组;

  • 按50%分位数(即中位数)将数据分成2组;

  • 按平均值大小将数据分成2组;

  • 按25%,50%和75%分位数,将数据分成4组。

  • SPSSAU会自动新生成标题来标识出新得到的组别,并且做好对应的标签,标签里面的数字代表对应分位数或平均值的数字。

  • SPSSAU范围编码的左右边界说明?
  • 范围编码时,左右边界均是闭区间,并且在出现冲突时优先让满足条件的数据进行编码,类似如下图所示。

  • SPSSAU数据编码的‘标签同步’功能?
  • 进行数据编码时,默认会选中‘标签同步’功能,此时标题对应的标签会跟随编码变化。比如某标题数字1代表男,现将1编码成2,那么编码后得到的新标题(或者选择覆盖原标题)时,数字2的标签为男。

  • SPSSAU数据编码时自动分组的原理是什么?
  • SPSSAU进行自动分组编码时,比如自动分拆成3个组别,那么SPSSAU会道德找到27%、73%这两个分位数,然后将数据拆分成3组,拆分规则如下:[最小值,小于27%分位数),[27%分位数,73%分位数),[73%分位数,最大值]。

  • 极端情况下预期是3组,但比如出现最小值刚好等于23%分位数,那么此时则只会出现2个组别,更极端情况下可能只会出现1个组别。