1. 正则化概述(Regularization)
监督学习可以简单的理解为在最小化loss function 的同时,保证模型的复杂度尽可能的低,防止出现过拟合(overfitting)。常用的loss函数有square loss(Regression),Hinge Loss(SVM),exp-loss(adaBoost) 等。关于正则化(Regularization),它一方面可用于控制模型的复杂度,提高模型的范化能力;另一方面还可以用于约束模型的特性,例如稀疏、平滑特性等。在数学上公式体现为在最优化loss Funcition后面加上正则化项(regularizer)也称为惩罚项(penalty term),用于限制模型参数w。实际中常使用模型参数w的范数来约束w,0范数、1范数、2范数分别称为L0正则化、L1正则化、L2正则化。
2. L0、L1正则化
向量的0范数是指向量中非零元素的个数。L0正则化的值是模型中非零参数的个数,L0正则化可以实现模型参数的的稀疏化。模型参数稀疏化使得模型能自动的选择比较重要的特征属性进行yi的预测,去掉没用的信息项。模型自动选择的比较少的特征属性一般会有比较好的解释性,例如1000维的患病样本,到底是怎么影响患病的?1000维的解释性远不如模型参数稀疏化后选择的几个重要的维度。遗憾的是,L0正则化是个NP难问题,很难求解,这才有了我们常见的L1正则化,L1也能达到模型参数稀疏化的效果。向量的1范数是指向量中所有元素的绝对值之和。L1正则化用于替代L0正则化,也称为lasso Regularizer。
3. L1、L2正则化
向量的2范数是指向量的模值||W|,向量所有元素的平方和然后求均值。L2正则项不是像L1正则化中通过稀疏模型参数来降低模型复杂度,而是通过减少模型参数的权值来控制过拟合的效果,因此L2正则化也被称为“权值衰减 weight decay”,在回归分析中也有人称为“岭回归 Ridge Regression”。L2正则化中模型参数W中每个元素都很小,接近于0,一般不会等于0。在实际中正则化中感觉使用L2的会更多一些,因为L1 会趋向于产生少量的有效特征项,L2会选择更多的特征。在所有特征中只有少量特征其重要作用的情况,可以选择lasso来自动选择比较合适的特征属性。而如果所有的特征中,大部分的特征都能起到一定的作用,还是使用L2会比较合适。
参考资料: