生成变量

  • B站优酷 量纲化处理的各种类型解读
  • 1、说明

    比如网购满意度由4项表示,希望将4项处理成一个整体(网购满意度),则将此4项进行选中,并且告诉SPSSAU‘变量名字’。生成变量可做以下功能:

    • 平均值、求和、中位数、乘积【此四项时,需要用户输入‘新标题名字’】

    • Z标准化、中心化、最大最小归一化

    • 虚拟变量

    • 平方、根号

    • 自然对数、10为底对数

    • 绝对值

    • 正向化、逆向化

    • 特别提示
    • 生成变量后,系统会新生成数据,而非原始数据基础上修改。 另外,用户可通过Ctrl或者Shift键同时选中多个标题;进行批量选中处理。

    • 针对虚拟变量,通常在进行回归分析(包括回归,逐步回归,分层回归,二元Logit回归,多分类Logit回归等)时会使用,建议查看虚拟变量帮助文档。

    • 正向化:如果数据包括10个指标,其中9个数字越大越好;另外1个数字越大表示越差,此时可对该1项逆向化处理。

    • 逆向化:如果数据包括10个指标,其中9个数字越小越好;另外1个数字越大表示越好,此时可对该9项逆向化处理。

    • 整体原则为:正向指标正向化处理(或不处理),逆向指标逆向化处理,这样处理后数据均变成‘正向’即数字越大越好。

  • 2、举例

疑难解惑

  • 批量选中处理?
  • 针对数据标签,数据编码,生成变量,异常值和无效样本这五个数据处理功能,直接选中即可,不需要拖拽操作。配合ctrl或者shift键同时选择多项,批量一次性操作处理。

  • 数据处理计算公式
  • 当前SPSSAU共提供约20类数据处理功能,各项功能的计算公式或说明如下表格。

功能 计算公式
平均值 X的平均值
求和 X进行求和
虚拟(哑)变量 虚拟哑变量,参考页面
Z标准化(S) (X-Mean)/ Std
中心化(C) X-Mean
求积 X相乘
自然对数(Ln) X取自然对数
10为底对数(Log10) X取10为底对数
归一化(MMS) (X-Min)/(Max-Min)
均值化(MC) X/Mean
求和归一化(SN) X/Sum(X)
平方和归一化(SSN) X/Sqrt(Sum(X^2))
正向化(MMS) (X-Min)/(Max-Min)
逆向化(NMMS) (Max-X)/(Max-Min)
适度化(M) -1*abs(X-K),其中abs是取绝对值,K为适度系数值,默认为0即不处理
区间化(Interval) 将数据压缩在ab之间,默认分别是12a + (b - a) * (X - Min)/(Max - Min)
初值化(Init) X / 该列第1个不为空的数据
平方(Sq) X平方
根号(Sqr) X开根号
绝对值(Abs) X取绝对值
倒数 X的倒数
相反数(Opposite) X的相反数
三次方(Cube) X的三次数
最大值 X的最大值
最小值 X的最小值
中位数 X的中位数
计数 计算设置数字的个数(默认数字0),相类似EXCELCountIF函数功能
样本编号 对所有数据从1~n进行编号
样本分组 可对样本进行分组处理(比如1000个样本分成3个组别),包括随机分组和顺序分组,组别数量由研究者决定。
BoxCox变换(BoxCox) 针对数据进行BoxCox变换,尽量让数据满足正态性。
BoxCox逆变换 对数据进行boxcox逆变换,需要输入lambda参数值。
Johnson转换(Jonhnson) 针对数据进行Johnson转换,尽量让数据满足正态性,与BoxCox变换类似的功能。
统计学中的秩,实质上是平均排名值
缩尾处理 计量经济中对异常数据的处理,默认是小于2.5%分位数值设置为2.5%分位数时值,大于97.5%的值设置为97.5%分位数的值。如果设置为0.1,则是最小的5%和最大的5%类似处理。如果选择上侧缩尾,则只会将大于97.5%的值设置为97.5%分位数的值;如果选择下侧缩尾,则只会将小于2.5%分位数值设置为2.5%分位数的值。
排名 针对数据进行排名,默认为降序(可选升序)
相除(Divide) X相除
相减(Minus) X相减
非负平移(NegativeTrans) 以‘标题’为单位,数据出现小于等于0,则让该‘标题’全部数据均加上一个‘平移值’【默认平移值为‘最小值的绝对值加上0.01’,0.01可选为0.001,0.0001,0.00001,0.1】。 如果数据全部都大于0则不会进行非负平移。
  • 进一步说明如下:
  • 上述中X表示选中的标题,Mean是平均值,Std为标准差,Min为最小值,Max为最大值;

  • 虚拟哑变量请参考此页面详细说明: https://www.spssau.com/helps/otherdocuments/dummy.html

  • 平均值,求和,中位数,乘积,最大值,最小值共六项需要输入新的变量名称;以及在此六项进行计算时,如果原始数据中出现NullSPSSAU会忽略掉。比如下表中计算效果(选中3列,但标题2中有部分数据为null空值):

标题1 标题2 标题3 平均值结果 乘积结果
1 2 1.5 2
2 2 2 2 8
3 3 3 9
  • 样本编号是指对原始数据加入一新列编号,从1到n进行编号下去。

疑难解惑

秩(Rank) 数据的排名数字即为秩,相同数字时使用平均排名作为秩,数字越大即排名越高,秩会越大。
  • 秩(Rank)是什么?
  • 秩,其实就是数字的排名,比如排第5名,秩就是5。如果原始数据中有相同的数字,则会使用它们的平均排名作为秩。

  • 高级公式是什么?
  • 如果生成变量的功能无法满足需求时,可使用自主性更强的自定义公式进行操作,特别提示公式的函数和名称全部均只支持小写,以及函数名称需要按SPSSAU规范进行,当前公式支持sin、cos、tan、exp、ln、log、sqrt、abs等函数。

  • Z标准化处理时数据没有变化?
  • 如果数据全部恒定即固定为1个数字时,也或者原始数据中仅1个数字时,此时无法进行标准化处理(因为标准差为0,标准化处理会出错),针对此类异常情况,SPSSAU默认不进行标准化处理

  • 适度化的意义是?
  • 一般指标可分为正向、逆向,适度化三类。比如数字越大越好,那么就称正向指标,数字越大越差就称逆向指标,以及数据越接近某个数字(k值)越好,那么就称其为适度化指标。一般来说,正向指标正向化处理,逆向指标逆向处理,适度化指标适度化处理即可。适度化处理的公式为:-|x - k |。

  • SPSSAU涉及日期处理的几种功能?
  • 针对日期格式的某列数据(如2021/1/1,2021-1-1),SPSSAU可对日期数据取年、月、日、周或季度。同时支持两个日期相减处理,相减后的单位为‘天’。 除此之外:可针对数据进行滞后lag处理,或者差分diff处理。如果处理时不放入日期项,则默认数据从第1行往下,依次日期升序。

  • 交互项是什么意思?
  • 交互项一般是用于调节作用时使用,其原理为两项相乘,直接使用SPSSAU数据处理->生成变量里面的乘积(交互项)进行设置即可,设置后再放入模型中进行分析即可。

  • 交互项如何处理?
  • 交互项通常是用于调节作用研究使用,其实质是两项的乘积项,可通过spssau生成变量功能进行设置处理,设置后再放入模型中进行分析即可。

  • 正向化和逆向化处理时,数据没有变化?
  • 如果某个分析项全部均为同1个数字,即最大值=最小值,此时正向化或逆向化公式中的分母为0,即无法进行正向化或逆向化处理,SPSSAU输出的标题与原始数据一致。

  • 截尾处理是什么?
  • 截尾处理与缩尾处理均是针对‘异常数据’进行处理的方式,但区别在于截尾处理时直接将‘异常数据’处理成null(而缩尾处理是进行数值填补),SPSSAU默认是小于2.5%分位数值设置为null,大于97.5%的值设置为null。如果设置为0.1,则是最小的5%和最大的5%类似处理。如果选择上侧截尾,则只会将大于97.5%的值设置为null值;如果选择下侧截断,则只会将小于2.5%分位数值设置为null值。

  • SPSSAU中固定值化是什么?
  • 比如gdp增长希望具有稳定性,比如在6%左右最好,太高或者太低都不稳定(即不太好),此时可使用固定值化处理方式,越接近6%越即。如果不输入参数值,默认为0。

  • SPSSAU中偏固定值化是什么意思?
  • 比如某指标希望远离0,离的越远越好,此时可使用偏固定值化处理。如果不输入参数值,默认为0。

  • SPSSAU近区间化是什么意思?
  • 比如某指标希望介于一定区间内,比如玩游戏时间每天介于0.5~2小时,离这个区间越近越好,此时可使用近区间化处理。如果数据介于此区间此处理成1,反之处理成0~1之间的数字。如果不输入参数值,区间值p和q,分别是1和2。

  • SPSSAU偏区间化是什么意思?
  • 比如某指标希望偏离某区间内(简单理解为要么更小要么更大),即离这个区间越远越好,此时可使用远区间化处理。如果数据介于此区间此处理成0,反之处理成0~1之间的数字。如果不输入参数值,区间值p和q,分别是1和2。

  • SPSSAU中进行季节差分?
  • 通常在进行季节性Arima模型时,会针对数据进行季节性差分,选择处理项并且输入周期性(比如12月为一个周期则为12),并且选择差分阶数(正常情况下数据是1阶差分)即可。如果数据并非依次从上至下日期递增,此时可放入日期项,让系统自动结合日期进行排序后进行季节差分。