SPSS在线_SPSSAU_生成变量

生成变量

分析方法视频解读：B站优酷

B站优酷量纲化处理的各种类型解读

1、说明

比如网购满意度由4项表示，希望将4项处理成一个整体(网购满意度),则将此4项进行选中，并且告诉SPSSAU‘变量名字’。生成变量可做以下功能：
- 平均值、求和、中位数、乘积【此四项时，需要用户输入‘新标题名字’】
- Z标准化、中心化、最大最小归一化
- 虚拟变量
- 平方、根号
- 自然对数、10为底对数
- 绝对值
- 正向化、逆向化
- 特别提示
- 生成变量后，系统会新生成数据，而非原始数据基础上修改。另外，用户可通过Ctrl或者Shift键同时选中多个标题；进行批量选中处理。
- 针对虚拟变量，通常在进行回归分析（包括回归，逐步回归，分层回归，二元Logit回归，多分类Logit回归等）时会使用，建议查看虚拟变量帮助文档。
- 正向化：如果数据包括10个指标，其中9个数字越大越好；另外1个数字越大表示越差，此时可对该1项逆向化处理。
- 逆向化：如果数据包括10个指标，其中9个数字越小越好；另外1个数字越大表示越好,此时可对该9项逆向化处理。
- 整体原则为：正向指标正向化处理（或不处理），逆向指标逆向化处理，这样处理后数据均变成‘正向’即数字越大越好。
2、举例

疑难解惑

批量选中处理？
针对数据标签，数据编码，生成变量，异常值和无效样本这五个数据处理功能，直接选中即可，不需要拖拽操作。配合ctrl或者shift键同时选择多项，批量一次性操作处理。

数据处理计算公式
当前SPSSAU共提供约20类数据处理功能，各项功能的计算公式或说明如下表格。

功能	计算公式
平均值	X的平均值
求和	X进行求和
虚拟（哑）变量	虚拟哑变量，参考页面
Z标准化（S）	（X-Mean）/ Std
中心化（C）	X-Mean
求积	X相乘
自然对数（Ln）	X取自然对数
10为底对数（Log10）	X取10为底对数
归一化（MMS）	（X-Min）/(Max-Min)
均值化（MC）	X/Mean
求和归一化（SN）	X/Sum（X）
平方和归一化（SSN）	X/Sqrt（Sum（X^2））
正向化（MMS）	（X-Min）/(Max-Min)
逆向化（NMMS)	（Max-X）/(Max-Min)
适度化（M）	*-1abs(X-K),其中abs**是取绝对值，K为适度系数值,默认为0即不处理
区间化（Interval)	将数据压缩在a和b之间，默认分别是1和2。*a + (b - a) (X - Min)/(Max - Min)**
初值化（Init)	X / 该列第1个不为空的数据
平方（Sq）	X平方
根号（Sqr）	X开根号
绝对值（Abs）	X取绝对值
倒数	X的倒数
相反数（Opposite）	X的相反数
三次方（Cube）	X的三次数
最大值	X的最大值
最小值	X的最小值
中位数	X的中位数
计数	计算设置数字的个数(默认数字0),相类似EXCEL的CountIF函数功能
样本编号	对所有数据从1~n进行编号
样本分组	可对样本进行分组处理（比如1000个样本分成3个组别），包括随机分组和顺序分组，组别数量由研究者决定。
BoxCox变换（BoxCox）	针对数据进行BoxCox变换，尽量让数据满足正态性。
BoxCox逆变换	对数据进行boxcox逆变换，需要输入lambda参数值。
Johnson转换（Jonhnson）	针对数据进行Johnson转换，尽量让数据满足正态性，与BoxCox变换类似的功能。
秩	统计学中的秩,实质上是平均排名值
缩尾处理	计量经济中对异常数据的处理,默认是小于2.5%分位数值设置为2.5%分位数时值,大于97.5%的值设置为97.5%分位数的值。如果设置为0.1,则是最小的5%和最大的5%类似处理。如果选择上侧缩尾，则只会将大于97.5%的值设置为97.5%分位数的值；如果选择下侧缩尾，则只会将小于2.5%分位数值设置为2.5%分位数的值。
排名	针对数据进行排名,默认为降序(可选升序)
相除（Divide）	X相除
相减（Minus）	X相减
非负平移（NegativeTrans）	以‘标题’为单位，数据出现小于等于0，则让该‘标题’全部数据均加上一个‘平移值’【默认平移值为‘最小值的绝对值加上0.01’，0.01可选为0.001,0.0001,0.00001,0.1】。如果数据全部都大于0则不会进行非负平移。

进一步说明如下：
上述中X表示选中的标题，Mean是平均值，Std为标准差，Min为最小值，Max为最大值；
虚拟哑变量请参考此页面详细说明： https://www.spssau.com/helps/otherdocuments/dummy.html
平均值，求和，中位数，乘积，最大值，最小值共六项需要输入新的变量名称；以及在此六项进行计算时，如果原始数据中出现Null，SPSSAU会忽略掉。比如下表中计算效果（选中3列，但标题2中有部分数据为null空值）：

标题1	标题2	标题3	平均值结果	乘积结果
1		2	1.5	2
2	2	2	2	8
3		3	3	9

样本编号是指对原始数据加入一新列编号，从1到n进行编号下去。

疑难解惑

秩（Rank）

数据的排名数字即为秩，相同数字时使用平均排名作为秩，数字越大即排名越高，秩会越大。

秩（Rank）是什么？
秩，其实就是数字的排名，比如排第5名，秩就是5。如果原始数据中有相同的数字，则会使用它们的平均排名作为秩。

高级公式是什么？
如果生成变量的功能无法满足需求时，可使用自主性更强的自定义公式进行操作，特别提示公式的函数和名称全部均只支持小写，以及函数名称需要按SPSSAU规范进行，当前公式支持sin、cos、tan、exp、ln、log、sqrt、abs等函数。

如何使用量纲化处理？
关于12种量纲化处理方式的选择使用，请参考此链接： https://www.spssau.com/helps/otherdocuments/dimensionalizeTheData.html

Z标准化处理时数据没有变化？
如果数据全部恒定即固定为1个数字时，也或者原始数据中仅1个数字时，此时无法进行标准化处理（因为标准差为0，标准化处理会出错），针对此类异常情况，SPSSAU默认不进行标准化处理

适度化的意义是？
一般指标可分为正向、逆向，适度化三类。比如数字越大越好，那么就称正向指标，数字越大越差就称逆向指标，以及数据越接近某个数字（k值）越好，那么就称其为适度化指标。一般来说，正向指标正向化处理，逆向指标逆向处理，适度化指标适度化处理即可。适度化处理的公式为：-｜x - k ｜。

SPSSAU涉及日期处理的几种功能？
针对日期格式的某列数据（如2021/1/1，2021-1-1），SPSSAU可对日期数据取年、月、日、周或季度。同时支持两个日期相减处理，相减后的单位为‘天’。除此之外：可针对数据进行滞后lag处理，或者差分diff处理。如果处理时不放入日期项，则默认数据从第1行往下，依次日期升序。

交互项是什么意思？
交互项一般是用于调节作用时使用，其原理为两项相乘，直接使用SPSSAU数据处理->生成变量里面的乘积(交互项)进行设置即可，设置后再放入模型中进行分析即可。

交互项如何处理？
交互项通常是用于调节作用研究使用，其实质是两项的乘积项，可通过spssau生成变量功能进行设置处理，设置后再放入模型中进行分析即可。

正向化和逆向化处理时，数据没有变化？
如果某个分析项全部均为同1个数字，即最大值=最小值，此时正向化或逆向化公式中的分母为0，即无法进行正向化或逆向化处理，SPSSAU输出的标题与原始数据一致。

截尾处理是什么？
截尾处理与缩尾处理均是针对‘异常数据’进行处理的方式，但区别在于截尾处理时直接将‘异常数据’处理成null（而缩尾处理是进行数值填补），SPSSAU默认是小于2.5%分位数值设置为null,大于97.5%的值设置为null。如果设置为0.1,则是最小的5%和最大的5%类似处理。如果选择上侧截尾，则只会将大于97.5%的值设置为null值；如果选择下侧截断，则只会将小于2.5%分位数值设置为null值。

SPSSAU中固定值化是什么？
比如gdp增长希望具有稳定性，比如在6%左右最好，太高或者太低都不稳定（即不太好），此时可使用固定值化处理方式，越接近6%越即。如果不输入参数值，默认为0。

SPSSAU中偏固定值化是什么意思？
比如某指标希望远离0，离的越远越好，此时可使用偏固定值化处理。如果不输入参数值，默认为0。

SPSSAU近区间化是什么意思？
比如某指标希望介于一定区间内，比如玩游戏时间每天介于0.5~2小时，离这个区间越近越好，此时可使用近区间化处理。如果数据介于此区间此处理成1，反之处理成0~1之间的数字。如果不输入参数值，区间值p和q，分别是1和2。

SPSSAU偏区间化是什么意思？
比如某指标希望偏离某区间内（简单理解为要么更小要么更大），即离这个区间越远越好，此时可使用远区间化处理。如果数据介于此区间此处理成0，反之处理成0~1之间的数字。如果不输入参数值，区间值p和q，分别是1和2。

SPSSAU中进行季节差分？
通常在进行季节性Arima模型时，会针对数据进行季节性差分，选择处理项并且输入周期性（比如12月为一个周期则为12），并且选择差分阶数（正常情况下数据是1阶差分）即可。如果数据并非依次从上至下日期递增，此时可放入日期项，让系统自动结合日期进行排序后进行季节差分。

生成变量

分析方法视频解读：B站优酷

B站优酷 量纲化处理的各种类型解读

1、说明

特别提示

2、举例

疑难解惑

批量选中处理？

数据处理计算公式

进一步说明如下：

疑难解惑

秩（Rank）是什么？

高级公式是什么？

如何使用量纲化处理？

Z标准化处理时数据没有变化？

适度化的意义是？

SPSSAU涉及日期处理的几种功能？

交互项是什么意思？

交互项如何处理？

正向化和逆向化处理时，数据没有变化？

截尾处理是什么？

SPSSAU中固定值化是什么？

SPSSAU中偏固定值化是什么意思？

SPSSAU近区间化是什么意思？

SPSSAU偏区间化是什么意思？

SPSSAU中进行季节差分？

B站优酷量纲化处理的各种类型解读