SPSS在线_SPSSAU_生成变量

生成变量

分析方法视频解读：B站优酷

B站优酷量纲化处理的各种类型解读

1、说明

比如网购满意度由4项表示，希望将4项处理成一个整体(网购满意度),则将此4项进行选中，并且告诉SPSSAU‘变量名字’。生成变量可做以下功能：
- 平均值、求和、中位数、乘积【此四项时，需要用户输入‘新标题名字’】
- Z标准化、中心化、最大最小归一化
- 虚拟变量
- 平方、根号
- 自然对数、10为底对数
- 绝对值
- 正向化、逆向化
- 特别提示
- 生成变量后，系统会新生成数据，而非原始数据基础上修改。另外，用户可通过Ctrl或者Shift键同时选中多个标题；进行批量选中处理。
- 针对虚拟变量，通常在进行回归分析（包括回归，逐步回归，分层回归，二元Logit回归，多分类Logit回归等）时会使用，建议查看虚拟变量帮助文档。
- 正向化：如果数据包括10个指标，其中9个数字越大越好；另外1个数字越大表示越差，此时可对该1项逆向化处理。
- 逆向化：如果数据包括10个指标，其中9个数字越小越好；另外1个数字越大表示越好,此时可对该9项逆向化处理。
- 整体原则为：正向指标正向化处理（或不处理），逆向指标逆向化处理，这样处理后数据均变成‘正向’即数字越大越好。
2、举例

疑难解惑

批量选中处理？
针对数据标签，数据编码，生成变量，异常值和无效样本这五个数据处理功能，直接选中即可，不需要拖拽操作。配合ctrl或者shift键同时选择多项，批量一次性操作处理。

数据处理计算公式
当前SPSSAU共提供约20类数据处理功能，各项功能的计算公式或说明如下表格。

功能	计算公式
平均值	X的平均值
求和	X进行求和
虚拟（哑）变量	虚拟哑变量，参考页面
Z标准化（S）	（X-Mean）/ Std
中心化（C）	X-Mean
求积	X相乘
自然对数（Ln）	X取自然对数
10为底对数（Log10）	X取10为底对数
归一化（MMS）	（X-Min）/(Max-Min)
均值化（MC）	X/Mean
求和归一化（SN）	X/Sum（X）
平方和归一化（SSN）	X/Sqrt（Sum（X^2））
正向化（MMS）	（X-Min）/(Max-Min)
逆向化（NMMS)	（Max-X）/(Max-Min)
适度化（M）	*-1abs(X-K),其中abs**是取绝对值，K为适度系数值,默认为0即不处理
区间化（Interval)	将数据压缩在a和b之间，默认分别是1和2。*a + (b - a) (X - Min)/(Max - Min)**
初值化（Init)	X / 该列第1个不为空的数据
平方（Sq）	X平方
根号（Sqr）	X开根号
绝对值（Abs）	X取绝对值
倒数	X的倒数
相反数（Opposite）	X的相反数
三次方（Cube）	X的三次数
最大值	X的最大值
最小值	X的最小值
中位数	X的中位数
计数	计算设置数字的个数(默认数字0),相类似EXCEL的CountIF函数功能
样本编号	对所有数据从1~n进行编号
样本分组	可对样本进行分组处理（比如1000个样本分成3个组别），包括随机分组和顺序分组，组别数量由研究者决定。
BoxCox变换（BoxCox）	针对数据进行BoxCox变换，尽量让数据满足正态性。
BoxCox逆变换	对数据进行boxcox逆变换，需要输入lambda参数值。
Johnson转换（Jonhnson）	针对数据进行Johnson转换，尽量让数据满足正态性，与BoxCox变换类似的功能。
秩	统计学中的秩,实质上是平均排名值
缩尾处理	计量经济中对异常数据的处理,默认是小于2.5%分位数值设置为2.5%分位数时值,大于97.5%的值设置为97.5%分位数的值。如果设置为0.1,则是最小的5%和最大的5%类似处理。如果选择上侧缩尾，则只会将大于97.5%的值设置为97.5%分位数的值；如果选择下侧缩尾，则只会将小于2.5%分位数值设置为2.5%分位数的值。
排名	针对数据进行排名,默认为降序(可选升序)
相除（Divide）	X相除
相减（Minus）	X相减
非负平移（NegativeTrans）	以‘标题’为单位，数据出现小于等于0，则让该‘标题’全部数据均加上一个‘平移值’【默认平移值为‘最小值的绝对值加上0.01’，0.01可选为0.001,0.0001,0.00001,0.1】。如果数据全部都大于0则不会进行非负平移。

进一步说明如下：
上述中X表示选中的标题，Mean是平均值，Std为标准差，Min为最小值，Max为最大值；
虚拟哑变量请参考此页面详细说明： https://www.spssau.com/helps/otherdocuments/dummy.html
平均值，求和，中位数，乘积，最大值，最小值共六项需要输入新的变量名称；以及在此六项进行计算时，如果原始数据中出现Null，SPSSAU会忽略掉。比如下表中计算效果（选中3列，但标题2中有部分数据为null空值）：

标题1	标题2	标题3	平均值结果	乘积结果
1		2	1.5	2
2	2	2	2	8
3		3	3	9

样本编号是指对原始数据加入一新列编号，从1到n进行编号下去。

疑难解惑

秩（Rank）

数据的排名数字即为秩，相同数字时使用平均排名作为秩，数字越大即排名越高，秩会越大。

秩（Rank）是什么？
秩，其实就是数字的排名，比如排第5名，秩就是5。如果原始数据中有相同的数字，则会使用它们的平均排名作为秩。

高级公式是什么？
如果生成变量的功能无法满足需求时，可使用自主性更强的自定义公式进行操作，特别提示公式的函数和名称全部均只支持小写，以及函数名称需要按SPSSAU规范进行，当前公式支持sin、cos、tan、exp、ln、log、sqrt、abs等函数。

如何使用量纲化处理？
关于12种量纲化处理方式的选择使用，请参考此链接： https://www.spssau.com/helps/otherdocuments/dimensionalizeTheData.html

Z标准化处理时数据没有变化？
如果数据全部恒定即固定为1个数字时，也或者原始数据中仅1个数字时，此时无法进行标准化处理（因为标准差为0，标准化处理会出错），针对此类异常情况，SPSSAU默认不进行标准化处理

适度化的意义是？
一般指标可分为正向、逆向，适度化三类。比如数字越大越好，那么就称正向指标，数字越大越差就称逆向指标，以及数据越接近某个数字（k值）越好，那么就称其为适度化指标。一般来说，正向指标正向化处理，逆向指标逆向处理，适度化指标适度化处理即可。适度化处理的公式为：-｜x - k ｜。

SPSSAU涉及日期处理的几种功能？
针对日期格式的某列数据（如2021/1/1，2021-1-1），SPSSAU可对日期数据取年、月、日、周或季度。同时支持两个日期相减处理，相减后的单位为‘天’。除此之外：可针对数据进行滞后lag处理，或者差分diff处理。如果处理时不放入日期项，则默认数据从第1行往下，依次日期升序。

交互项是什么意思？
交互项一般是用于调节作用时使用，其原理为两项相乘，直接使用SPSSAU数据处理->生成变量里面的乘积(交互项)进行设置即可，设置后再放入模型中进行分析即可。

交互项如何处理？
交互项通常是用于调节作用研究使用，其实质是两项的乘积项，可通过spssau生成变量功能进行设置处理，设置后再放入模型中进行分析即可。

正向化和逆向化处理时，数据没有变化？
如果某个分析项全部均为同1个数字，即最大值=最小值，此时正向化或逆向化公式中的分母为0，即无法进行正向化或逆向化处理，SPSSAU输出的标题与原始数据一致。

截尾处理是什么？
截尾处理与缩尾处理均是针对‘异常数据’进行处理的方式，但区别在于截尾处理时直接将‘异常数据’处理成null（而缩尾处理是进行数值填补），SPSSAU默认是小于2.5%分位数值设置为null,大于97.5%的值设置为null。如果设置为0.1,则是最小的5%和最大的5%类似处理。如果选择上侧截尾，则只会将大于97.5%的值设置为null值；如果选择下侧截断，则只会将小于2.5%分位数值设置为null值。

SPSSAU中固定值化是什么？
比如gdp增长希望具有稳定性，比如在6%左右最好，太高或者太低都不稳定（即不太好），此时可使用固定值化处理方式，越接近6%越即。如果不输入参数值，默认为0。

SPSSAU中偏固定值化是什么意思？
比如某指标希望远离0，离的越远越好，此时可使用偏固定值化处理。如果不输入参数值，默认为0。

SPSSAU近区间化是什么意思？
比如某指标希望介于一定区间内，比如玩游戏时间每天介于0.5~2小时，离这个区间越近越好，此时可使用近区间化处理。如果数据介于此区间此处理成1，反之处理成0~1之间的数字。如果不输入参数值，区间值p和q，分别是1和2。

SPSSAU偏区间化是什么意思？
比如某指标希望偏离某区间内（简单理解为要么更小要么更大），即离这个区间越远越好，此时可使用远区间化处理。如果数据介于此区间此处理成0，反之处理成0~1之间的数字。如果不输入参数值，区间值p和q，分别是1和2。

SPSSAU中进行季节差分？
通常在进行季节性Arima模型时，会针对数据进行季节性差分，选择处理项并且输入周期性（比如12月为一个周期则为12），并且选择差分阶数（正常情况下数据是1阶差分）即可。如果数据并非依次从上至下日期递增，此时可放入日期项，让系统自动结合日期进行排序后进行季节差分。

IF THEN功能？
SPSSAU提供的生成变量功能时，默认有提供高级公式，IF THEN赋值判断功能，以及提供各类点击式操作生成变量功能。IF THEN是指满足指定判断（比如年龄小于30并且体重大于100斤）时赋值为多少（比如为1，并且标签为‘苗条’）。

SPSSAU条件赋值IF THEN？
SPSSAU生成变量时，除提供常见数据处理生成变量功能，还提供‘高级驱散’与‘IF THEN’，‘IF THEN’是指满足用户设置逻辑条件的计算生成变量，比如身高>1.8时赋值为1(并可设置数据标签)。

生成变量

分析方法视频解读：B站优酷

B站优酷 量纲化处理的各种类型解读

1、说明

特别提示

2、举例

疑难解惑

批量选中处理？

数据处理计算公式

进一步说明如下：

疑难解惑

秩（Rank）是什么？

高级公式是什么？

如何使用量纲化处理？

Z标准化处理时数据没有变化？

适度化的意义是？

SPSSAU涉及日期处理的几种功能？

交互项是什么意思？

交互项如何处理？

正向化和逆向化处理时，数据没有变化？

截尾处理是什么？

SPSSAU中固定值化是什么？

SPSSAU中偏固定值化是什么意思？

SPSSAU近区间化是什么意思？

SPSSAU偏区间化是什么意思？

SPSSAU中进行季节差分？

IF THEN功能？

SPSSAU条件赋值IF THEN？

B站优酷量纲化处理的各种类型解读