生成变量

  • B站优酷 量纲化处理的各种类型解读
  • 1、说明

    比如网购满意度由4项表示,希望将4项处理成一个整体(网购满意度),则将此4项进行选中,并且告诉SPSSAU‘变量名字’。生成变量可做以下功能:

    • 平均值、求和、中位数、乘积【此四项时,需要用户输入‘新标题名字’】

    • Z标准化、中心化、最大最小归一化

    • 虚拟变量

    • 平方、根号

    • 自然对数、10为底对数

    • 绝对值

    • 正向化、逆向化

    • 特别提示
    • 生成变量后,系统会新生成数据,而非原始数据基础上修改。 另外,用户可通过Ctrl或者Shift键同时选中多个标题;进行批量选中处理。

    • 针对虚拟变量,通常在进行回归分析(包括回归,逐步回归,分层回归,二元Logit回归,多分类Logit回归等)时会使用,建议查看虚拟变量帮助文档。

    • 正向化:如果数据包括10个指标,其中9个数字越大越好;另外1个数字越大表示越差;此时可对该1项正向化。逆向化:如果数据包括10个指标,其中9个数字越小越好;另外1个数字越大表示越好;此时可对该1项逆向化。

  • 2、举例

疑难解惑

  • 批量选中处理?
  • 针对数据标签,数据编码,生成变量,异常值和无效样本这五个数据处理功能,直接选中即可,不需要拖拽操作。配合ctrl或者shift键同时选择多项,批量一次性操作处理。

  • 数据处理计算公式
  • 当前SPSSAU共提供约20类数据处理功能,各项功能的计算公式或说明如下表格。

功能 计算公式
平均值 X的平均值
求和 X进行求和
虚拟(哑)变量 虚拟哑变量,参考页面
Z标准化(S) (X-Mean)/ Std
中心化(C) X-Mean
求积 X相乘
自然对数(Ln) X取自然对数
10为底对数(Log10) X取10为底对数
归一化(MMS) (X-Min)/(Max-Min)
均值化(MC) X/Mean
求和归一化(SN) X/Sum(X)
平方和归一化(SSN) X/Sqrt(Sum(X^2))
正向化(MMS) (X-Min)/(Max-Min)
逆向化(NMMS) (Max-X)/(Max-Min)
适度化(M) -1*abs(X-K),其中abs是取绝对值,K为适度系数值,默认为0即不处理
区间化(Interval) 将数据压缩在ab之间,默认分别是12a + (b - a) * (X - Min)/(Max - Min)
初值化(Init) X / 该列第1个不为空的数据
平方(Sq) X平方
根号(Sqr) X开根号
绝对值(Abs) X取绝对值
倒数 X的倒数
相反数(Opposite) X的相反数
三次方(Cube) X的三次数
最大值 X的最大值
最小值 X的最小值
中位数 X的中位数
计数 计算设置数字的个数(默认数字0),相类似EXCELCountIF函数功能
样本编号 对所有数据从1~n进行编号
BoxCox变换(BoxCox) 针对数据进行BoxCox变换,尽量让数据满足正态性。
Johnson转换(Jonhnson) 针对数据进行Johnson转换,尽量让数据满足正态性,与BoxCox变换类似的功能。
统计学中的秩,实质上是平均排名值
缩尾处理 计量经济中对异常数据的处理,默认是小于2.5%分位数值设置为2.5%分位数时值,大于97.5%的值设置为97.5%分位数的值。如果设置为0.1,则是最小的5%和最大的5%类似处理。如果选择上侧缩尾,则只会将大于97.5%的值设置为97.5%分位数的值;如果选择下侧缩尾,则只会将小于2.5%分位数值设置为2.5%分位数的值。
排名 针对数据进行排名,默认为降序(可选升序)
相除(Divide) X相除
相减(Minus) X相减
非负平移(NegativeTrans) 以‘标题’为单位,数据出现小于等于0,则让该‘标题’全部数据均加上一个‘平移值’【默认平移值为0.01,可选为0.001,0.0001,0.00001,0.1】。
如果数据全部都大于0则不会进行非负平移。
  • 进一步说明如下:
  • 上述中X表示选中的标题,Mean是平均值,Std为标准差,Min为最小值,Max为最大值;

  • 虚拟哑变量请参考此页面详细说明: https://www.spssau.com/helps/otherdocuments/dummy.html

  • 平均值,求和,中位数,乘积,最大值,最小值共六项需要输入新的变量名称;以及在此六项进行计算时,如果原始数据中出现NullSPSSAU会忽略掉。比如下表中计算效果(选中3列,但标题2中有部分数据为null空值):

标题1 标题2 标题3 平均值结果 乘积结果
1 2 1.5 2
2 2 2 2 8
3 3 3 9
  • 样本编号是指对原始数据加入一新列编号,从1到n进行编号下去。

疑难解惑

秩(Rank) 数据的排名数字即为秩,相同数字时使用平均排名作为秩,数字越大即排名越高,秩会越大。
  • 秩(Rank)是什么?
  • 秩,其实就是数字的排名,比如排第5名,秩就是5。如果原始数据中有相同的数字,则会使用它们的平均排名作为秩。

  • 高级公式是什么?
  • 如果生成变量的功能无法满足需求时,可使用自主性更强的自定义公式进行操作,特别提示公式的函数和名称全部均只支持小写,以及函数名称需要按SPSSAU规范进行,当前公式支持sin、cos、tan、exp、ln、log、sqrt、abs等函数。

  • Z标准化处理时数据没有变化?
  • 如果数据全部恒定即固定为1个数字时,也或者原始数据中仅1个数字时,此时无法进行标准化处理(因为标准差为0,标准化处理会出错),针对此类异常情况,SPSSAU默认不进行标准化处理

  • 适度化的意义是?
  • 一般指标可分为正向、逆向,适度化三类。比如数字越大越好,那么就称正向指标,数字越大越差就称逆向指标,以及数据越接近某个数字(k值)越好,那么就称其为适度化指标。一般来说,正向指标正向化处理,逆向指标逆向处理,适度化指标适度化处理即可。适度化处理的公式为:-|x - k |。

  • SPSSAU涉及日期处理的几种功能?
  • 针对日期格式的某列数据(如2021/1/1,2021-1-1),SPSSAU可对日期数据取年、月、日、周或季度。同时支持两个日期相减处理,相减后的单位为‘天’。 除此之外:可针对数据进行滞后lag处理,或者差分diff处理。如果处理时不放入日期项,则默认数据从第1行往下,依次日期升序。