通过LASSO回归压缩和选择汇总 下载本文

内容发布更新时间 : 2024/10/25 10:33:18星期一 下面是文章的全部内容请认真阅读。

通过LASSO回归压缩和选择

Robert·Tibshirani 加拿大多伦多大学

【1994年1月收到,1995年1月修订】

【摘要】

本文提出一个线性模型估计的新方法。LASSO最小化残差平方和使得系数绝对值之和小于一个常数。由于此约束的性质倾向于产生一些为0的系数,从而给出了解释模型。我们的仿真研究表明,LASSO具有一些子集选择和岭回归的有利特性。它产生了例如子集选择的解释模型并展示了岭回归的稳定性。在最近的工作中关于多诺霍和约翰斯通的自适应函数估计也有一些有趣的关系。LASSO思想是相当广泛的并可用于各种统计模型:本文简要介绍了广义的回归模型和基于树的模型的扩展。

关键词:二次规划;回归;压缩;子集选择 1.引言

考虑通常的回归情况:已知数据(Xi,yi),i?1,2,...,N,其中Xi?(xi1,...,xip)T和

yi分别是观察数据的第i个回归因子和响应量。通过最小化残差平方的误差得到

普通最小二乘法(OLS)估计。数据分析师经常不满意OLS估计值有两个原因。第一是预测精度:OLS估计经常是低偏压高方差;预测精度有时可以通过压缩或设置一些系数为0进行改善。通过这样,牺牲一些偏压,减少预测值的方差,从而提高可以总体的预测精度。第二个原因是解释。拥有大量的经常想要决定更小子集的预测值,我们表现出强烈的影响。

改进OLS估计的子集选择和岭回归这两种标准标准技术都有缺点。子集选择提供可解释模型,但是由于它是一个从模型中保留或删除的离散过程变量,它可能极其易变。数据的一点更改可能导致选中非常不同的模型,这样可以减少其预测精度。岭回归是一个系数收缩的连续的过程,并且因此更加稳定:然而,它的任何系数都不为0,因此没有给出一个容易解释的模型。

我们提出一个新技术,LASSO即最小绝对收缩和选择算子。它将一些系数收缩,其他的系数设置为0,从而试图保持子集选择和岭回归的良好特征。

第1页

第2节给出LASSO的定义,看一些特殊情况。第3节给出真实数据示例,而在第4节我们讨论预测误差与LASSO收缩参数估计的方法。第5节简要介绍LASSO的贝叶斯模型。第6节描述LASSO算法。第7节描述仿真研究。第8、9节讨论广义回归模型的扩展和其他问题。一些关于soft thresholding和与LASSO的关系的结果在第10节中进行了讨论,第11节包括一些讨论和总结。 2.LASSO方法 2.1定义

假设已知数据(Xi,yi),i?1,2,...,N,其中Xi?(xi1,...,xip)T是预测变量,yi是响应变量。在一般的回归设置中,我们假设观测值独立或者对给定的xijs,yis是条件独立的。假设xij是标准化的,那么

?xiijN?x?0,

i2ijN?1。

?)的定义如下: ??(??,...,??)T,LASSO估计(??,?令?1pN??)?argmin?(y???x)2??,?(????ijiji?1j?? (1)

s..t??j?tj??y。我们可以假设其中,调优参数t?0 。现在对于所有t,?的解决方案是?不是一般性y?0,因此省略?。

方程(1)的解决方案的计算是具有线性不等式约束的二次规划问题。在第6节,针对这个问题,我们描述了一些高效、稳定的算法。

?o为完全最小二乘估计,参数t?0控制了应用于估计的收缩量。令?j?o。t?t将导致方案的收缩趋向于0,并且一些系数可能刚好等于0。t0???j0例如,如果t?t02,效果会大致类似于寻找大小为p2的最优特征子集。还要注意,设置的矩阵不一定需要满秩。在第4节,我们给出基于数据的估计t的方法。

LASSO的动机来自于布赖曼(1993)的一个提议。布赖曼的非负garotte最小化。

第2页

?(yi?1Ni?ox)2????cj?jijj (2)

s..tcj?0,?cj?t.garotte始于普通最小二乘估计,通过总和被限制的非负因素进行收缩。在

广泛的仿真研究中,布赖曼显示,除非真正的模型中有许多小的非零系数,

garotte具有保持比子集选择更低的预测误差且与岭回归具有竞争力。

garotte的一个缺点是它的解决方案取决于标志和OLS估计量。在OLS表现

不佳的过拟合或高度相关的设置中,garotte可能会深受其害。相比之下,LASSO避免显示使用OLS估计。

弗兰克和弗里德曼(1993)提出了使用绑定的参数q范数,q是一个大于等于0的数;LASSO方法中q?1。在第10节中简要讨论了这个问题。 2.2正交设计

深入了解收缩的性质可以从正交设计案例中进行收集。令X为既定n?p矩阵,元素为xij,假定XTX?I,I为单位矩阵。 方程(1)的解很容易证明是

??sign(??o)(??o??)? (3) ?jjj??t决定。有趣的是,这与多诺霍和约翰斯通(1994)和多诺霍等其中,?由??j人(1995)提出的软收缩建议具有相同的形式,应用于小波系数的函数估计。软收缩和最低l1范数惩罚的关系也由多诺霍等人(1992)在非负参数信号和图像恢复中指出。我们将在第10节进行详细的解释说明。

在正交设计的情况下,大小为k的最佳子集的选择减少到最大系数k的绝对

?o??,设置?????o;否值,将其余的设置为0。对?的一些选择相当于如果?jjj则设置为0。岭回归使得下面式子最小

?(y???x)ijiji?1jN2????j2

j或者等价地,使得如下最小

?(y???ii?1jNjijx)2 (4)

s.t.??j2?t.

第3页