PLS回归分析

  • 在进行X对于Y的影响关系研究时,Y只能是一项,如果Y有多项,则有两种处理办法,一是重复进行多次;二是将Y概括成一个整体。那如果研究人员希望将多个Y同时放一起分析时,则需要使用PLS回归。

    在进行回归分析时,经常遇见的一个问题存在严重的共线性问题,当前有很多共线性问题解决的办法(比如逐步回归、手工移出一些变量、岭回归等),除此之外,还可以使用PLS回归。

    在进行回归分析时,理论上要求因变量正态,并且样本量不能太小等,如果样本量很小(一般小于100,且存在一定共线性问题时),又希望研究影响关系,此时则可以使用PLS回归。

    PLS回归(Partial least squares regression,偏最小二乘回归),是一种可以解决共线性问题、多个因变量Y同时分析、以及处理小样本时影响关系研究的一种多元统计方法。从原理上,PLS回归集合三种研究方法,分别是多元线性回归、典型相关分析和主成分分析,PLS回归是此三种方法的集合运用,多元线性回归用于研究影响关系,典型相关分析用于研究多个X和多个Y之间的关系,主成分分析用于对多个X或者多个Y进行信息浓缩。

    通俗地讲:PLS回归运用主成分分析的原理,将多个X和多个Y,分别浓缩为成分(X对应主成分U,Y对应主成分V),然后借助于典型相关原理,可分析X与U的关系,Y与V的关系;以及结合多元线性回归原理,分析X对于V的关系,从而研究到X对于Y的关系。简单理解即为:先将多个X和多个Y,浓缩成新的成分(X对应主成分U,Y对应主成分V),然后通过研究主成分之间的关系,从而研究X和Y之间的关系。

    PLS回归一般包括以下内容,如下8类表格和图形:

    研究目的
    主成分与X或Y研究关系表达式 主成分与X或Y的数学表达式,无实际意义。
    主成分与X或Y之间的相关关系loading值 研究主成分与X或Y间的关系情况,可用于对主成分进行命名,无其它意义。
    精度分析(共2个) 主成分对于X或Y的信息提取率情况(方差解释率),可分析模型效果情况。
    X与Y之间的回归系数 核心研究项,X对于Y的影响关系及幅度,可结合
    p 值进行查看影响情况。
    投影重要性VIP分析 X对于Y的重要性情况如何,以及可用于辅助判断主成分个数。
    交叉有效性分析 用于辅助判断主成分个数。
    模型R 方汇总 X对于Y的解释力度,用于分析拟合效果。
    回归系数检验表格 查看X对Y的影响是否显著。
    RMSEP图形 查看RMSEP值,辅助判断主成分个数。

    在进行PLS回归时,通常分为两个大步骤。第一步:确认主成分数量;第二步:设置主成分数量后进行分析。

    第一步即确认主成分数量。主成分数量的确定有以下几种方法,通常可结合使用,并无绝对的固定的标准。

    1. 交叉有效性分析,如果Qh2值小于等于0.0975,则说明继续加大主成分个数无意义,即该点(或上一点)对应的主成分个数为最佳主成分个数;

    2. RMSEP值作图时,如果图形下降走趋平稳,说明继续增加主成分无帮助,即对应点(或上一点)对应的主成分个数为最佳主成分个数;

    3. 投影重要性VIP值分析,如果主成分增加对于VIP值变化不明显,此时该主成分个数即为最佳个数;

    4. 精度分析,如果说主成分增加时,解释率无明显增加,此时该主成分个数即为最佳个数;

    5. 模型R 方值,如果说主成分增加时,R 方无明显增加,此时该主成分个数即为最佳个数;

    主成分数量的确定,是一个综合分析过程,最常使用的方法是交叉有效性分析,同时RMSEP,VIP,精度分析(方差解释率值),R 方等指标均可用于辅助判断最佳主成分数量;

    第二步即完成主成分数量后正式分析;第一步得出主成分数量,接着主动设置主成分数量后得到结果,进行正式分析。正式分析一般包括主成分与研究项数学关系表达式;主成分与研究项相关关系loading值分析;主成分与研究项信息量提取(精度分析时的方差解释率),以及核心的分析即X与Y之间的回归影响关系分析,影响方向和显著性,以及模型R 方值,X对于Y的解释力度(投影重要性VIP分析)等。

      特别提示
    • 主成分是以成对形式出现,比如结合VIP分析和交叉有效性分析,得出主成分数量为2,其实是两对主成分;U1和V1为一对;U2和V2为一对; U1,U2代表对于X的信息浓缩; V1和V2代表对于Y的信息浓缩;

    • 上述U1,U2,V1,V2等均是字母名称,实际研究时可结合U1,U2,V1,V2等分别与研究项的相关关系(loading值)和精度分析(信息提取量即方差解释率),然后自行命名即可;

    • 主成分数量确认后,第二步正式分析包括数学关系表达式描述、主成分与分析项相关关系(loading值)、精度分析(主成分对研究项的信息提取,即方差解释率)、以及X与Y的影响关系研究,影响方向和显著性,以及模型R 方值等。

PLS回归案例

  • 1、背景

    本案例研究身体特征指标(共3个X,分别是体重X1、腰围X2和脉博X3)对于训练指标(共3个Y,分别是单杠Y1、弯曲Y2和跳高Y3)的影响关系,样本数据为20个。由于数据样本量非常小(20个),并且因变量为3个无法概括成一个,并且3个X之有着共线性,因此使用PLS回归进行研究。

  • 2、理论

    PLS回归的核心思路是:将X和Y进行信息浓缩,得到主成分,然后通过研究主成分与X或Y之间的关系,从而研究得到X对于Y的影响关系。PLS回归融合了主成分分析、典型相关和多元线性回归共三个算法的内容,主成分用于信息浓缩,典型相关用于研究多个X和多个Y之间的关系,多元线性回归用于研究影响关系情况。

    PLS回归一般的分析步骤分为两个步骤,分别如下:

    • 第一步:确认主成分数量,通过交叉有效性,RMSEP图和投影重要性VIP分析进行确认;

    • 第二步:基于第一步主成分数量基础上,进行分析。

    • 第二步可以继续拆分为以下5个步骤,分别是:
    • 第1:描述主成分与研究项之间的关系表达式;

    • 第2:描述主成分与研究项之间的相关系数loading值;

    • 第3:描述主成分与研究间之间信息解释率(方差解释率),即精度分析;

    • 第4:研究X对于Y的影响关系情况,包括显著性情况,以及R 方值等;

    • 第5:研究X对于Y的解释力度,即投影重要性VIP分析。

      特别提示
    • 主成分是以成对形式出现,比如结合VIP分析和交叉有效性分析,得出主成分数量为2,其实是两对主成分;U1和V1为一对;U2和V2为一对; U1,U2代表对于X的信息浓缩; V1和V2代表对于Y的信息浓缩;

  • 3、操作

    本例子研究3个X对于3个Y的影响关系,操作截图如下:

    首先第一步成分数量这里不选择,默认即可,SPSSAU会自动生成主成分数量,经过对交叉有效性和投影重要性VIP分析,确认好主成分数量之后;接着第二步操作,在这里选择主成分数量,即得到最终结果。

    主成分数量的选择判断上,可综合使用多个指标进行分析综合进行判断,包括‘交叉有效性’,‘VIP值’,‘精度分析’,‘RMSEP值变化’,‘R 方值变化’等5个角度进行判断和决策。下面以‘VIP值’,‘交叉有效性’和‘RMSEP值变化’这三项进行本次案例的主成分个数判断

    >
    投影重要性指标汇总(VIP)
    1个主成分时 2个主成分时 3个主成分时
    X1 1.022 0.998 1.019
    X2 1.336 1.298 1.220
    X3 0.414 0.565 0.689

    投影重要性VIP指标,其反映了X对于Y(所有)的解释力度,并且区分不同主成分的情况,如果说主成分继续增加,VIP指标并没有明显的增加时,则说明找出最佳的主成分数量。上表和下图显示,1个主成分和2个主成分时,3个X对应的VIP指标变化均很小,仅X3有着一定变化(从0.414到0.565),2个主成分到3个主成分时,3个X对应的VIP指标变化也很小。因而说明可能1个主成分或者2个主成分均较为适合,具体还可以结合交叉有效性进行综合决定。

    另外从下图还可以看到,X2对于Y的影响力度最高,其次是X1,X3对于Y的影响力度最小。

    交叉有效性分析 
    成分h SS PRESS Qh2
    1 96596.314 122139.665 1.000
    2 93721.743 135933.273 -0.407
    3 89527.954 148255.643 -0.582

    交叉有效性中包括不同主成分数量时(上表分别是1个主成分,2个主成分和3个主成分)时,误差平方和SS,预测误差平方和PRESS,以及Qh2共三个指标。SS和PRESS为中间过程值,Qh2 = 1 – PRESSh/SS(h-1);比如h=2(即2个主成分时),Qh2 = 1 - 135933.273/96596.314 = -0.407。当h=1时,Qh2为1。

    至于如何利用交叉有效性确认主成分数量,常见的标准是Qh2>=(1-0.95)^2=0.0975时,说明该主成分对模型是有贡献的,如果Qh2小于0.0975,意味着该成分对于模型没有贡献,上表格中,成分数量为2或者3时,Qh2均小于0.0975,因此说明选择2个或者3个主成分不合适,因此第2个或者第3个主成分对于模型没有贡献,因此最终选择1个主成分作为结论。

    除此之外,可结合RMSEP(预测误差均方根)值查看,该值意义为‘平均的残差值’,该值肯定是希望越小越好,如果说主成分个数增加,但是该值变化不明显,那就说明找到对应的最佳主成分。本次分析时,如下图所示,

    如果提取为1个主成分,此时RMSEP值为102.579,2个主成分时为100.961,3个主成分时为98.578,RMSEP值变化非常不明显,意味着提供1个或者2个均可,最终考虑提供1个主成分作为结论。

    上述投影重要性VIP分析,交叉有效性和RMSEP值分析结束后,最终确认主成分数量为1,接着选择主成分数量为1进行PLS回归分析。

      特别提示
    • 主成分数量如果为1个,则说明X全部浓缩成1个整体特征,此种情况下在实际研究中出现较少。

  • 4、SPSSAU 输出结果

    SPSSAU共输出9个表格和1个图形,分别如下表:

    目的
    主成分与研究项数学关系表达式 成分与X或Y的数学表达式
    主成分与研究项相关分析(loading值) 研究主成分与X或Y间的关系情况,可用于对成分进行命名
    因变量Y与自变量X间关系之回归系数 核心研究项,X对于Y的影响关系及幅
    主成分U与研究项精度分析 主成分U对于X或Y的信息提取比例情况(方差解释率)。
    主成分V与研究项精度分析 主成分V对于X或Y的信息提取比例情况(方差解释率)。
    投影重要性指标汇总(VIP) 可用于分析X对于Y的解释力度情况,并且可用于辅助决定主成分个数。
    交叉有效性分析 用于分析主成分个数。(样本小于100时输出)
    模型R 方汇总 模型的拟合程度如何。
    回归系数检验表格 研究回归系数的显著性(样本小于100时输出)
    RMSEP折线图 展示RMSEP值在不同成分时的变化情况
  • 5、文字分析

    主成分与研究项数学关系表达式
    主成分U1
    X1 0.590
    X2 0.771
    X3 -0.239
    主成分V1
    Y1 -1.101
    Y2 -1.341
    Y3 -0.461

    最终提取主成分数量为1个,分别命名为U1和V1,U1对应着X的信息提取主成分,V1对应着Y的信息提取主成分。主成分U与自变量X之间的关系表达式,以及主成分V与因变量Y之间的关系表达式 ,如下所示:

    • 主成分U1=0.590*X1+0.771*X2-0.239*X3

    • 主成分V1=-1.101*Y1-1.341*Y2-0.461*Y3

    主成分与研究项相关分析(loading值)
    主成分U1
    X1 0.666
    X2 0.676
    X3 -0.359
    主成分V1
    Y1 -0.342
    Y2 -0.416
    Y3 -0.143

    Loading值表达主成分与研究项的相关关系情况,该值介于-1~1之间,绝对值越大说明相关关系越强,正负号表示相关关系方向。从上表格可以看到:主成分U1分别与X1,X2均有着较强的正相关关系,loading值分别是0.666和0.676,主成分U1与X3有着负向相关关系。

    主成分V1与Y1,Y2,Y3均有着负向相关关系,loading值全部均小于0。结合loading值,研究人员可对主成分U1或V1进行命名,让其具有实际意义,而非仅仅是个符号。

    因变量Y与自变量X间关系之回归系数
    Y1 Y2 Y3 Y1(标准化) Y2(标准化) Y3(标准化)
    常数 29.278 430.767 149.213 0.000 0.000 0.000
    X1 -0.043 -0.622 -0.175 -0.202 -0.245 -0.084
    X2 -0.435 -6.271 -1.766 -0.264 -0.321 -0.110
    X3 0.060 0.862 0.243 0.082 0.099 0.034

    上表格展示因变量Y与自变量X之间的回归关系表达式,包括每个因变量Y与所有自变量间的关系表达式,如下所示:

    • Y1=-0.202*X1-0.264*X2+0.082*X3

    • Y2=-0.245*X1-0.321*X2+0.099*X3

    • Y3=-0.084*X1-0.110*X2+0.034*X3

    上表格显示,X1,X2对于Y1,Y2和Y3均为负向影响,X3对于Y1,Y2和Y3均为正向影响,至于影响大小幅度情况,可结合图形和表格数字进行描述,建议研究人员可结合图形进行研究X对于Y的影响幅度情况。

    主成分U与研究项精度分析
    主成分U1 综合
    X1 0.898 0.898
    X2 0.925 0.925
    X3 0.261 0.261
    综合 0.695 0.695
    主成分U1 综合
    Y1 0.236 0.236
    Y2 0.351 0.351
    Y3 0.041 0.041
    综合 0.209 0.209

    精度分析研究主成分对于研究项的信息提取情况,并且分为两个,分别是主成分U与X或Y的精度分析;主成分V分别与X或Y的精度分析;但实际研究中,一般只需要分析主成分U与X的精度分析;主成分V与Y的精度分析。原因在于主成分U为X的信息浓缩,主成分V为Y的信息浓缩。

    上表格显示,主成分U1对于所有3个X信息提取比例是0.695(方差解释率,即69.5%),提取信息较高。X1,X2的信息提取比例非常高(分别是0.898和0.925),但是主成分U1对于X3的信息提取比例较低为0.261,意味着主成分U1无法提取出X3的信息量。

    主成分V与研究项精度分析
    主成分V1 综合
    X1 0.216 0.216
    X2 0.369 0.369
    X3 0.035 0.035
    综合 0.207 0.207
    主成分V1 综合
    Y1 0.775 0.775
    Y2 0.883 0.883
    Y3 0.549 0.549
    综合 0.735 0.735

    上表格显示,主成分V1对于所有3个Y信息提取比例是0.735,提取信息比例高。主成分V1对于3个Y都有着较高的信息提取,分别是0.775,0.883和0.549。

    投影重要性指标汇总(VIP)
    1个主成分时
    X1 1.022
    X2 1.336
    X3 0.414

    投影重要性指标VIP可用于辅助判断主成分数量,并且更多用于研究X对于Y(整体)的影响力度,从上表可知,X1对于所有Y的解释力度最高(VIP值为1.336),其次是X1(VIP为1.022),X3对于所有Y的解释力度最低。另外投影重要性指标VIP分析还可结合图形进行描述。

    交叉有效性分析
    成分h SS PRESS Qh2
    1 96596.314 122139.665 1.000

    交叉有效性表格用于确认主成分数量,此处已经是主成分确认为1个时的结果,不在有意义。

    模型R 方汇总
    因变量 1个主成分时
    Y1 0.236
    Y2 0.351
    Y3 0.041

    模型R 方值表格,展示出所有X分别对于Y的解释力度,比如本次中,X1,X2和X3可以解释Y1,0.236即23.6%的变化原因。同时分别对于Y2和Y3的解释比例分别是35.1%和4.1%。

    回归系数检验表格
    因变量Y X 回归系数 标准误 t 值 p 值
    Y1 X1 -0.043 0.025 -1.699 0.106
    X2 -0.435 0.263 -1.653 0.115
    X3 0.06 0.185 0.323 0.75
    Y2 X1 -0.622 0.165 -3.772 0.001
    X2 -6.271 3.823 -1.64 0.117
    X3 0.862 2.121 0.407 0.689
    Y3 X1 -0.175 0.071 -2.478 0.023
    X2 -1.766 0.828 -2.132 0.046
    X3 0.243 0.317 0.765 0.453

    上表格展示回归系数的显著性,和普通的线性回归一样,分别时先查看p 值,如果p 值小于0.05,再接着查看回归系数的正负向。比如上表格中,X1对于Y2呈现出0.01水平的显著性(t =-3.772,p =0.001 <0.01),回归系数值为-0.622<0,即说明X1对于Y2有显著的负向影响关系。

    通常情况下,PLS回归时的X个数会非常多,因此表格信息会非常大,建议可汇总描述说明。

  • 6、剖析

    涉及以下几个关键点,分别如下:

    • 主成分是以成对形式出现,比如结合VIP分析和交叉有效性分析,得出主成分数量为2,其实是两对主成分;U1和V1为一对;U2和V2为一对; U1,U2代表对于X的信息浓缩; V1和V2代表对于Y的信息浓缩;

    • 在进行PLS回归时,通常分为两个大步骤。第一步:确认主成分数量;第二步:设置主成分数量后进行分析;

    • 具体PLS回归分析可拆分为以下5个步骤,分别是:第1:描述主成分与研究项之间的关系表达式;第2:描述主成分与研究项之间的相关系数loading值;第3:描述主成分与研究间之间信息解释率(方差解释率),即精度分析;第4:研究X对于Y的影响关系情况,包括显著性情况,以及R 方等;第5:研究X对于Y的解释力度,即投影重要性VIP分析。

    • 如果样本量小于100,SPSSAU默认会进行“留一验证法”计算,并且输出‘交叉有效性’表格和‘回归系数检验表格’,如果样本量大于100则不会输出此2个表格。

    • 关于回归系数检验p 值,其计算原理为利用“留一验证法”多次得到的回归系数值进行计算标准误,从而得到对应的t 值和p 值。

    • Loading值意义在于展示成分分别与X或者Y的相关关系,如果需要针对成分进行命名,可结合loading值(一般是绝对值)进行综合说明成分与X或Y的相关关系,从而针对成分进行命名,该指标意义相对较小。

    • PLS回归之后,如果想验证模型的拟合效果,可针对R 方进行描述。同时,可‘保存预测值’,并且使用‘预测值’与‘真实值’画散点图,直观查看模型拟合效果情况。

疑难解惑

  • PLS回归不输出Qh2值?
  • SPSSAU在PLS算法时,如果样本量小于100则提供Qh2值,如果样本量过大超过100个,则不提供交叉有效性检验Qh2