生成变量

  • B站优酷 量纲化处理的各种类型解读
  • 1、说明

    比如网购满意度由4项表示,希望将4项处理成一个整体(网购满意度),则将此4项进行选中,并且告诉SPSSAU‘变量名字’。生成变量可做以下功能:

    • 平均值、求和、中位数、乘积【此四项时,需要用户输入‘新标题名字’】

    • Z标准化、中心化、最大最小归一化

    • 虚拟变量

    • 平方、根号

    • 自然对数、10为底对数

    • 绝对值

    • 正向化、逆向化

    • 特别提示
    • 生成变量后,系统会新生成数据,而非原始数据基础上修改。 另外,用户可通过Ctrl或者Shift键同时选中多个标题;进行批量选中处理。

    • 针对虚拟变量,通常在进行回归分析(包括回归,逐步回归,分层回归,二元Logit回归,多分类Logit回归等)时会使用,建议查看虚拟变量帮助文档。

    • 正向化:如果数据包括10个指标,其中9个数字越大越好;另外1个数字越大表示越差;此时可对该1项正向化。逆向化:如果数据包括10个指标,其中9个数字越小越好;另外1个数字越大表示越好;此时可对该1项逆向化。

  • 2、举例

疑难解惑

  • 批量选中处理?
  • 针对数据标签,数据编码,生成变量,异常值和无效样本这五个数据处理功能,直接选中即可,不需要拖拽操作。配合ctrl或者shift键同时选择多项,批量一次性操作处理。

  • 数据处理计算公式
  • 当前SPSSAU共提供约20类数据处理功能,各项功能的计算公式或说明如下表格。

功能 计算公式
平均值 X的平均值
求和 X进行求和
虚拟(哑)变量 虚拟哑变量,参考页面
Z标准化(S) (X-Mean)/ Std
中心化(C) X-Mean
求积 X相乘
自然对数(Ln) X取自然对数
10为底对数(Log10) X取10为底对数
归一化(MMS) (X-Min)/(Max-Min)
均值化(MC) X/Mean
求和归一化(SN) X/Sum(X)
平方和归一化(SSN) X/Sqrt(Sum(X^2))
正向化(MMS) (X-Min)/(Max-Min)
逆向化(NMMS) (Max-X)/(Max-Min)
适度化(M) -1*abs(X-K),其中abs是取绝对值,K为适度系数值,默认为0即不处理
区间化(Interval) 将数据压缩在ab之间,默认分别是12a + (b - a) * (X - Min)/(Max - Min)
初值化(Init) X / 该列第1个不为空的数据
平方(Sq) X平方
根号(Sqr) X开根号
绝对值(Abs) X取绝对值
倒数 X的倒数
相反数(Opposite) X的相反数
三次方(Cube) X的三次数
最大值 X的最大值
最小值 X的最小值
中位数 X的中位数
计数 计算设置数字的个数(默认数字0),相类似EXCELCountIF函数功能
样本编号 对所有数据从1~n进行编号
BoxCox变换(BoxCox) 针对数据进行BoxCox变换,尽量让数据满足正态性。
统计学中的秩,实质上是平均排名值
缩尾处理 计量经济中对异常数据的处理,默认是小于2.5%分位数值设置为2.5%分位数时值,大于97.5%的值设置为97.5%分位数的值。如果设置为0.1,则是最小的5%和最大的5%类似处理。如果选择上侧缩尾,则只会将大于97.5%的值设置为97.5%分位数的值;如果选择下侧缩尾,则只会将小于2.5%分位数值设置为2.5%分位数的值。
排名 针对数据进行排名,默认为降序(可选升序)
相除(Divide) X相除
相减(Minus) X相减
非负平移(NegativeTrans) 以‘标题’为单位,数据出现小于等于0,则让该‘标题’全部数据均加上一个‘平移值’【默认平移值为0.01,可选为0.001,0.0001,0.00001,0.1】。
如果数据全部都大于0则不会进行非负平移。
  • 进一步说明如下:
  • 上述中X表示选中的标题,Mean是平均值,Std为标准差,Min为最小值,Max为最大值;

  • 虚拟哑变量请参考此页面详细说明: https://spssau.com/helps/otherdocuments/dummy.html

  • 平均值,求和,中位数,乘积,最大值,最小值共六项需要输入新的变量名称;以及在此六项进行计算时,如果原始数据中出现NullSPSSAU会忽略掉。比如下表中计算效果(选中3列,但标题2中有部分数据为null空值):

标题1 标题2 标题3 平均值结果 乘积结果
1 2 1.5 2
2 2 2 2 8
3 3 3 9
  • 样本编号是指对原始数据加入一新列编号,从1到n进行编号下去。

疑难解惑

秩(Rank) 数据的排名数字即为秩,相同数字时使用平均排名作为秩,数字越大即排名越高,秩会越大。
  • 秩(Rank)是什么?
  • 秩,其实就是数字的排名,比如排第5名,秩就是5。如果原始数据中有相同的数字,则会使用它们的平均排名作为秩。