比如网购满意度由4项表示,希望将4项处理成一个整体(网购满意度),则将此4项进行选中,并且告诉SPSSAU‘变量名字’。生成变量可做以下功能:
平均值、求和、中位数、乘积【此四项时,需要用户输入‘新标题名字’】
Z标准化、中心化、最大最小归一化
虚拟变量
平方、根号
自然对数、10为底对数
绝对值
正向化、逆向化
生成变量后,系统会新生成数据,而非原始数据基础上修改。 另外,用户可通过Ctrl或者Shift键同时选中多个标题;进行批量选中处理。
针对虚拟变量,通常在进行回归分析(包括回归,逐步回归,分层回归,二元Logit回归,多分类Logit回归等)时会使用,建议查看虚拟变量帮助文档。
正向化:如果数据包括10个指标,其中9个数字越大越好;另外1个数字越大表示越差,此时可对该1项逆向化处理。
逆向化:如果数据包括10个指标,其中9个数字越小越好;另外1个数字越大表示越好,此时可对该9项逆向化处理。
整体原则为:正向指标正向化处理(或不处理),逆向指标逆向化处理,这样处理后数据均变成‘正向’即数字越大越好。
针对数据标签,数据编码,生成变量,异常值和无效样本这五个数据处理功能,直接选中即可,不需要拖拽操作。配合ctrl或者shift键同时选择多项,批量一次性操作处理。
当前SPSSAU共提供约20类数据处理功能,各项功能的计算公式或说明如下表格。
功能 | 计算公式 |
---|---|
平均值 | X的平均值 |
求和 | X进行求和 |
虚拟(哑)变量 | 虚拟哑变量,参考页面 |
Z标准化(S) | (X-Mean)/ Std |
中心化(C) | X-Mean |
求积 | X相乘 |
自然对数(Ln) | X取自然对数 |
10为底对数(Log10) | X取10为底对数 |
归一化(MMS) | (X-Min)/(Max-Min) |
均值化(MC) | X/Mean |
求和归一化(SN) | X/Sum(X) |
平方和归一化(SSN) | X/Sqrt(Sum(X^2)) |
正向化(MMS) | (X-Min)/(Max-Min) |
逆向化(NMMS) | (Max-X)/(Max-Min) |
适度化(M) | -1*abs(X-K),其中abs是取绝对值,K为适度系数值,默认为0即不处理 |
区间化(Interval) | 将数据压缩在a和b之间,默认分别是1和2。a + (b - a) * (X - Min)/(Max - Min) |
初值化(Init) | X / 该列第1个不为空的数据 |
平方(Sq) | X平方 |
根号(Sqr) | X开根号 |
绝对值(Abs) | X取绝对值 |
倒数 | X的倒数 |
相反数(Opposite) | X的相反数 |
三次方(Cube) | X的三次数 |
最大值 | X的最大值 |
最小值 | X的最小值 |
中位数 | X的中位数 |
计数 | 计算设置数字的个数(默认数字0),相类似EXCEL的CountIF函数功能 |
样本编号 | 对所有数据从1~n进行编号 |
样本分组 | 可对样本进行分组处理(比如1000个样本分成3个组别),包括随机分组和顺序分组,组别数量由研究者决定。 |
BoxCox变换(BoxCox) | 针对数据进行BoxCox变换,尽量让数据满足正态性。 |
BoxCox逆变换 | 对数据进行boxcox逆变换,需要输入lambda参数值。 |
Johnson转换(Jonhnson) | 针对数据进行Johnson转换,尽量让数据满足正态性,与BoxCox变换类似的功能。 |
秩 | 统计学中的秩,实质上是平均排名值 |
缩尾处理 | 计量经济中对异常数据的处理,默认是小于2.5%分位数值设置为2.5%分位数时值,大于97.5%的值设置为97.5%分位数的值。如果设置为0.1,则是最小的5%和最大的5%类似处理。如果选择上侧缩尾,则只会将大于97.5%的值设置为97.5%分位数的值;如果选择下侧缩尾,则只会将小于2.5%分位数值设置为2.5%分位数的值。 |
排名 | 针对数据进行排名,默认为降序(可选升序) |
相除(Divide) | X相除 |
相减(Minus) | X相减 |
非负平移(NegativeTrans) | 以‘标题’为单位,数据出现小于等于0,则让该‘标题’全部数据均加上一个‘平移值’【默认平移值为‘最小值的绝对值加上0.01’,0.01可选为0.001,0.0001,0.00001,0.1】。 如果数据全部都大于0则不会进行非负平移。 |
上述中X表示选中的标题,Mean是平均值,Std为标准差,Min为最小值,Max为最大值;
虚拟哑变量请参考此页面详细说明: https://www.spssau.com/helps/otherdocuments/dummy.html
平均值,求和,中位数,乘积,最大值,最小值共六项需要输入新的变量名称;以及在此六项进行计算时,如果原始数据中出现Null,SPSSAU会忽略掉。比如下表中计算效果(选中3列,但标题2中有部分数据为null空值):
标题1 | 标题2 | 标题3 | 平均值结果 | 乘积结果 |
1 | 2 | 1.5 | 2 | |
2 | 2 | 2 | 2 | 8 |
3 | 3 | 3 | 9 |
样本编号是指对原始数据加入一新列编号,从1到n进行编号下去。
秩(Rank) | 数据的排名数字即为秩,相同数字时使用平均排名作为秩,数字越大即排名越高,秩会越大。 |
秩,其实就是数字的排名,比如排第5名,秩就是5。如果原始数据中有相同的数字,则会使用它们的平均排名作为秩。
如果生成变量的功能无法满足需求时,可使用自主性更强的自定义公式进行操作,特别提示公式的函数和名称全部均只支持小写,以及函数名称需要按SPSSAU规范进行,当前公式支持sin、cos、tan、exp、ln、log、sqrt、abs等函数。
关于12种量纲化处理方式的选择使用,请参考此链接: https://www.spssau.com/helps/otherdocuments/dimensionalizeTheData.html
如果数据全部恒定即固定为1个数字时,也或者原始数据中仅1个数字时,此时无法进行标准化处理(因为标准差为0,标准化处理会出错),针对此类异常情况,SPSSAU默认不进行标准化处理
一般指标可分为正向、逆向,适度化三类。比如数字越大越好,那么就称正向指标,数字越大越差就称逆向指标,以及数据越接近某个数字(k值)越好,那么就称其为适度化指标。一般来说,正向指标正向化处理,逆向指标逆向处理,适度化指标适度化处理即可。适度化处理的公式为:-|x - k |。
针对日期格式的某列数据(如2021/1/1,2021-1-1),SPSSAU可对日期数据取年、月、日、周或季度。同时支持两个日期相减处理,相减后的单位为‘天’。 除此之外:可针对数据进行滞后lag处理,或者差分diff处理。如果处理时不放入日期项,则默认数据从第1行往下,依次日期升序。
交互项一般是用于调节作用时使用,其原理为两项相乘,直接使用SPSSAU数据处理->生成变量里面的乘积(交互项)进行设置即可,设置后再放入模型中进行分析即可。
交互项通常是用于调节作用研究使用,其实质是两项的乘积项,可通过spssau生成变量功能进行设置处理,设置后再放入模型中进行分析即可。
如果某个分析项全部均为同1个数字,即最大值=最小值,此时正向化或逆向化公式中的分母为0,即无法进行正向化或逆向化处理,SPSSAU输出的标题与原始数据一致。
截尾处理与缩尾处理均是针对‘异常数据’进行处理的方式,但区别在于截尾处理时直接将‘异常数据’处理成null(而缩尾处理是进行数值填补),SPSSAU默认是小于2.5%分位数值设置为null,大于97.5%的值设置为null。如果设置为0.1,则是最小的5%和最大的5%类似处理。如果选择上侧截尾,则只会将大于97.5%的值设置为null值;如果选择下侧截断,则只会将小于2.5%分位数值设置为null值。
比如gdp增长希望具有稳定性,比如在6%左右最好,太高或者太低都不稳定(即不太好),此时可使用固定值化处理方式,越接近6%越即。如果不输入参数值,默认为0。
比如某指标希望远离0,离的越远越好,此时可使用偏固定值化处理。如果不输入参数值,默认为0。
比如某指标希望介于一定区间内,比如玩游戏时间每天介于0.5~2小时,离这个区间越近越好,此时可使用近区间化处理。如果数据介于此区间此处理成1,反之处理成0~1之间的数字。如果不输入参数值,区间值p和q,分别是1和2。
比如某指标希望偏离某区间内(简单理解为要么更小要么更大),即离这个区间越远越好,此时可使用远区间化处理。如果数据介于此区间此处理成0,反之处理成0~1之间的数字。如果不输入参数值,区间值p和q,分别是1和2。
通常在进行季节性Arima模型时,会针对数据进行季节性差分,选择处理项并且输入周期性(比如12月为一个周期则为12),并且选择差分阶数(正常情况下数据是1阶差分)即可。如果数据并非依次从上至下日期递增,此时可放入日期项,让系统自动结合日期进行排序后进行季节差分。