l1正则和l2正则的区别?
一、l1正则和l2正则的区别
L1正则化与稀疏性
事实上,”带正则项”和“带约束条件”是等价的。
为了约束w的可能取值空间从而防止过拟合,我们为该优异化问题加上一个约束,就是w的L1范数不能大于m:
{min∑Ni=1(wTxi−yi)2s.t.∥w∥1⩽m………(3)
问题转化成了带约束条件的凸优化问题,写出拉格朗日函数:
∑i=1N(wTxi−yi)2+λ(∥w∥1−m)……..(4)
设W∗和λ∗是原问题的优异解,则根据KKT条件得:
{0=∇w[∑Ni=1(WT∗xi−yi)2+λ∗(∥w∥1−m)]0⩽λ∗………(5)
仔细看上面名列前茅个式子,与公式(1)其实是等价的,等价于(3)式。
设L1正则化损失函数:J=J0+λ∑w|w|,其中J0=∑Ni=1(wTxi−yi)2是原始损失函数,加号后面的一项是L1正则化项,λ是正则化系数。
注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此J是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。当我们在原始损失函数J0后添加L1正则化项时,相当于对J0做了一个约束。令L=λ∑w|w|,则J=J0+L,此时我们的任务变成在L约束下 出J0取最小值的解。
考虑二维的情况,即只有两个权值w1和w2,此时L=|w1|+|w2|对于梯度下降法,求解J0的过程可以画出等值线,同时L1正则化的函数L也可以在w1、w2的二维平面上画出来。
延伸阅读:
二、L2正则化为什么能防止过拟合
拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是抗扰动能力强。
以上就是关于l1正则和l2正则的区别的内容希望对大家有帮助。

猜你喜欢LIKE
相关推荐HOT
更多>>
自助建站和传统语言开发的网站有哪些区别?
一、自助建站和传统语言开发的网站的区别自助建站和传统语言开发的网站有以下区别:1、技术要求不同传统语言开发的网站需要有一定的编程技术和...详情>>
2023-10-14 23:49:18
选择运算和投影运算有哪些区别?
一、选择运算和投影运算的区别在关系型数据库管理系统 Access 中,选择运算(Selection)和投影运算(Projection)是两种常用的操作,它们的区...详情>>
2023-10-14 21:46:11
l1正则和l2正则的区别?
一、l1正则和l2正则的区别L1减少的是一个常量,L2减少的是权重的固定比例L1使权重稀疏,L2使权重平滑。L1减少的是一个常量,L2减少的是权重的固...详情>>
2023-10-14 19:42:58
为什么苹果选用Pascal做为Lisa和早期Mac的操作系统的编程语言?
一、苹果选用Pascal做为Lisa和早期Mac的操作系统的编程语言的原因苹果公司选用Pascal做为Lisa和早期Mac的操作系统的编程语言,主要是因为Pascal...详情>>
2023-10-14 16:52:31热门推荐
自助建站和传统语言开发的网站有哪些区别?
沸NTLEA和Locale Emulator有哪些区别?
热iwatch3gps和蜂窝区别?
热选择运算和投影运算有哪些区别?
新jsp和servlet的区别和联系?
面向对象编程,面向函数式编程,面向过程编程有什么区别?
mos管和场效应管区别?
l1正则和l2正则的区别?
java中方法嵌套和方法链区别?
锁代码块和锁方法有啥区别啊?
内存泄漏和内存溢出有啥区别?
为什么苹果选用Pascal做为Lisa和早期Mac的操作系统的编程语言?
为什么说Ruby继承了Lisp?
golang中interface为什么不算泛型?
技术干货






