偏最小二乘法(PLS)简介

作 者:CIC  阅读次数:38821次  发布日期:2004/12/30


简 介

偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首次提出。近几十年来,它在理论、方法和应用方面都得到了迅速的发展。

偏最小二乘法

长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚。而偏最小二乘法则把它们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中的一个飞跃。

偏最小二乘法在统计应用中的重要性体现在以下几个方面:

偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。

偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。

主成分回归的主要目的是要提取隐藏在矩阵X中的相关信息,然后用于预测变量Y的值。这种做法可以保证让我们只使用那些独立变量,噪音将被消除,从而达到改善预测模型质量的目的。但是,主成分回归仍然有一定的缺陷,当一些有用变量的相关性很小时,我们在选取主成分时就很容易把它们漏掉,使得最终的预测模型可靠性下降,如果我们对每一个成分进行挑选,那样又太困难了。

偏最小二乘回归可以解决这个问题。它采用对变量X和Y都进行分解的方法,从变量X和Y中同时提取成分(通常称为因子),再将因子按照它们之间的相关性从大到小排列。现在,我们要建立一个模型,我们只要决定选择几个因子参与建模就可以了

基本概念

偏最小二乘回归是对多元线性回归模型的一种扩展,在其最简单的形式中,只用一个线性模型来描述独立变量Y与预测变量组X之间的关系:

Y = b0 + b1X1 + b2X2 + ... + bpXp

在方程中,b0是截距,bi的值是数据点1到p的回归系数。

例如,我们可以认为人的体重是他的身高、性别的函数,并且从各自的样本点中估计出回归系数,之后,我们从测得的身高及性别中可以预测出某人的大致体重。对许多的数据分析方法来说,最大的问题莫过于准确的描述观测数据并且对新的观测数据作出合理的预测。


多元线性回归模型为了处理更复杂的数据分析问题,扩展了一些其他算法,象判别式分析,主成分回归,相关性分析等等,都是以多元线性回归模型为基础的多元统计方法。这些多元统计方法有两点重要特点,即对数据的约束性:

变量X和变量Y的因子都必须分别从X'X和Y'Y矩阵中提取,这些因子就无法同时表示变量X和Y的相关性。

预测方程的数量永远不能多于变量Y跟变量X的数量。

偏最小二乘回归从多元线性回归扩展而来时却不需要这些对数据的约束。在偏最小二乘回归中,预测方程将由从矩阵Y'XX'Y中提取出来的因子来描述;为了更具有代表性,提取出来的预测方程的数量可能大于变量X与Y的最大数。


简而言之,偏最小二乘回归可能是所有多元校正方法里对变量约束最少的方法,这种灵活性让它适用于传统的多元校正方法所不适用的许多场合,例如一些观测数据少于预测变量数时。并且,偏最小二乘回归可以作为一种探索性的分析工具,在使用传统的线性回归模型之前,先对所需的合适的变量数进行预测并去除噪音干扰。

因此,偏最小二乘回归被广泛用于许多领域来进行建模,象化学,经济学,医药,心理学和制药科学等等,尤其是它可以根据需要而任意设置变量这个优点更加突出。在化学计量学上,偏最小二乘回归已作为一种标准的多元建模工具。

计 算 过 程

基本模型

作为一个多元线性回归方法,偏最小二乘回归的主要目的是要建立一个线性模型:Y=XB+E,其中Y是具有m个变量、n个样本点的响应矩阵,X是具有p个变量、n个样本点的预测矩阵,B是回归系数矩阵,E为噪音校正模型,与Y具有相同的维数。在通常情况下,变量X和Y被标准化后再用于计算,即减去它们的平均值并除以标准偏差。

偏最小二乘回归和主成分回归一样,都采用得分因子作为原始预测变量线性组合的依据,所以用于建立预测模型的得分因子之间必须线性无关。例如:假如我们现在有一组响应变量Y(矩阵形式)和大量的预测变量X(矩阵形式),其中有些变量严重线性相关,我们使用提取因子的方法从这组数据中提取因子,用于计算得分因子矩阵:T=XW,最后再求出合适的权重矩阵W,并建立线性回归模型:Y=TQ+E,其中Q是矩阵T的回归系数矩阵,E为误差矩阵。一旦Q计算出来后,前面的方程就等价于Y=XB+E,其中B=WQ,它可直接作为预测回归模型。

偏最小二乘回归与主成分回归的不同之处在于得分因子的提取方法不同,简而言之,主成分回归产生的权重矩阵W反映的是预测变量X之间的协方差,偏最小二乘回归产生的权重矩阵W反映的是预测变量X与响应变量Y之间的协方差。

在建模当中,偏最小二乘回归产生了pxc的权重矩阵W,矩阵W的列向量用于计算变量X的列向量的nxc的得分矩阵T。不断的计算这些权重使得响应与其相应的得分因子之间的协方差达到最大。普通最小二乘回归在计算Y在T上的回归时产生矩阵Q,即矩阵Y的载荷因子(或称权重),用于建立回归方程:Y=TQ+E。一旦计算出Q,我们就可以得出方程:Y=XB+E,其中B=WQ,最终的预测模型也就建立起来了。

非线性迭代偏最小二乘法

用于计算偏最小二乘回归的一种标准算法是非线性迭代偏最小二乘法(NIPALS),在这种算法中有许多变量,有些被规范化了,有些却没有。下面提到的算法被认为是非线性迭代偏最小二乘法中最有效的一种。

对h=1...c,且A0=X'Y, M0=X'X, C0=I,变量c已知。

计算qh,Ah'Ah的主特征向量。

wh=GhAhqh, wh=wh/||wh||,并将wh作为W的列向量。

ph=Mhwh, ch=wh'Mhwh, ph=ph/ch,并将ph作为P的列向量。

qh=Ah'wh/ch,并将qh作为Q的列向量。

Ah+1=Ah - chphqh',Bh+1=Mh - chphph'

Ch+1=Ch - whph'

得分因子矩阵T可以计算出来:T=XW,偏最小二乘回归系数B也可由公式B=WQ计算出。

SIMPLS算法

还有一种对偏最小二乘回归组分的估计方法,被称为SIMPLS算法。

对h=1...c,且A0=X'Y, M0=X'X, C0=I,变量c已知。

计算qh,Ah'Ah的主特征向量。

wh=Ahqh, ch=wh'Mhwh, wh=wh/sqrt(ch),并将wh作为W的列向量。

ph=Mhwh,并将ph作为P的列向量。

qh=Ah'wh,并将qh作为Q的列向量。

vh=Chph,vh=vh/||vh||

Ch+1=Ch - vhvh',Mh+1=Mh - phph'

Ah+1=ChAh

与NIPALS相同,SIMPLS的T由公式T=XW计算出,B由公式B=WQ'计算。


相关文献

许禄,《化学计量学方法》,科学出版社,北京,1995。

王惠文,《偏最小二乘回归方法及应用》,国防科技出版社,北京,1996。

Chin, W. W., and Newsted, P. R. (1999). Structural Equation Modeling analysis with Small Samples Using Partial Least Squares. In Rick Hoyle (Ed.), Statistical Strategies for Small Sample Research, Sage Publications.

Chin, W. W. (1998). The partial least squares approach for structural equation modelling. In George A. Marcoulides (Ed.), Modern Methods for Business Research, Lawrence Erlbaum Associates.

Barclay, D., C. Higgins and R. Thompson (1995). The Partial Least Squares (PLS) Approach to Causal Modeling: Personal Computer Adoption and Use as an Illustration. Technology Studies, volume 2, issue 2, 285-309.

Chin, W. W. (1995). Partial Least Squares Is To LISREL As Principal Components Analysis Is To Common Factor Analysis. Technology Studies. volume 2, issue 2, 315-319.

Falk, R. F. and N. Miller (1992). A Primer For Soft Modeling. Akron, Ohio: The University of Akron Press.

Fornell, C. (Ed.) (1982). A Second Generation Of Multivariate Analysis, Volume 1: Methods. New York: Praeger.


关闭】 【打印