博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习中的正则化
阅读量:5170 次
发布时间:2019-06-13

本文共 1071 字,大约阅读时间需要 3 分钟。

1. 正则化概述(Regularization)

           监督学习可以简单的理解为在最小化loss function 的同时,保证模型的复杂度尽可能的低,防止出现过拟合(overfitting)。常用的loss函数有square loss(Regression),Hinge Loss(SVM),exp-loss(adaBoost) 等。关于正则化(Regularization),它一方面可用于控制模型的复杂度,提高模型的范化能力;另一方面还可以用于约束模型的特性,例如稀疏、平滑特性等。在数学上公式体现为在最优化loss Funcition后面加上正则化项(regularizer)也称为惩罚项(penalty term),用于限制模型参数w。实际中常使用模型参数w的范数来约束w,0范数、1范数、2范数分别称为L0正则化、L1正则化、L2正则化。

2. L0、L1正则化

        向量的0范数是指向量中非零元素的个数。L0正则化的值是模型中非零参数的个数,L0正则化可以实现模型参数的的稀疏化。模型参数稀疏化使得模型能自动的选择比较重要的特征属性进行yi的预测,去掉没用的信息项。模型自动选择的比较少的特征属性一般会有比较好的解释性,例如1000维的患病样本,到底是怎么影响患病的?1000维的解释性远不如模型参数稀疏化后选择的几个重要的维度。遗憾的是,L0正则化是个NP难问题,很难求解,这才有了我们常见的L1正则化,L1也能达到模型参数稀疏化的效果。向量的1范数是指向量中所有元素的绝对值之和。L1正则化用于替代L0正则化,也称为lasso Regularizer。

3. L1、L2正则化

       向量的2范数是指向量的模值||W|,向量所有元素的平方和然后求均值。L2正则项不是像L1正则化中通过稀疏模型参数来降低模型复杂度,而是通过减少模型参数的权值来控制过拟合的效果,因此L2正则化也被称为“权值衰减 weight decay”,在回归分析中也有人称为“岭回归 Ridge Regression”。L2正则化中模型参数W中每个元素都很小,接近于0,一般不会等于0。在实际中正则化中感觉使用L2的会更多一些,因为L1 会趋向于产生少量的有效特征项,L2会选择更多的特征。在所有特征中只有少量特征其重要作用的情况,可以选择lasso来自动选择比较合适的特征属性。而如果所有的特征中,大部分的特征都能起到一定的作用,还是使用L2会比较合适。

参考资料:

             

             

转载于:https://www.cnblogs.com/wxquare/p/5396885.html

你可能感兴趣的文章
接口传递的json后台如何获得值
查看>>
分页工具的使用
查看>>
如何在Linux启动jar 包
查看>>
微信支付java后台
查看>>
小明买了一箱鸡蛋,假设有n个,可以一天吃1个,也可以一天吃2个,请问有多 少种方法可以吃完?...
查看>>
BigDecimal浮点精度加减乘除运算
查看>>
使用表的id+随机数做不重复的订单号
查看>>
SpringMVC 、Struts2之间的区别
查看>>
根据一个单词找所有的兄弟单词的思想如何处理
查看>>
servlet的监听器、过滤器、拦截器的区别
查看>>
mybatis与hibernate区别
查看>>
几个常见的算法
查看>>
高并发
查看>>
nginx负载均衡的方法
查看>>
Java开发笔记(一百三十三)Swing的菜单
查看>>
127 MySQL权限管理
查看>>
131 MySQL单表查询(重要)
查看>>
DDWRT如何开启samba共享
查看>>
解决Mac系统finder卡顿转菊花的问题
查看>>
Chrome 76.0.3809.100(正式版本) (64 位) 版本 77.0.3865.90不显示网址中的www怎么解决...
查看>>