千锋教育-做有情怀、有良心、有品质的职业教育机构

400-811-9990
手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

上海
  • 北京
  • 郑州
  • 武汉
  • 成都
  • 西安
  • 沈阳
  • 广州
  • 南京
  • 深圳
  • 大连
  • 青岛
  • 杭州
  • 重庆
当前位置:上海千锋IT培训  >  技术干货  >  l1正则和l2正则的区别?

l1正则和l2正则的区别?

来源:千锋教育
发布人:xqq
时间: 2023-10-14 19:42:58

一、l1正则和l2正则的区别

L1减少的是一个常量,L2减少的是权重的固定比例L1使权重稀疏,L2使权重平滑。L1减少的是一个常量,L2减少的是权重的固定比例L1优点是能够获得sparse模型,对于large-scale的问题来说这一点很重要,因为可以减少存储空间L2优点是实现简单,能够起到正则化的作用。缺点就是L1的优点:无法获得sparse模型L1优点是能够获得sparse模型,对于large-scale的问题来说这一点很重要,因为可以减少存储空间L2优点是实现简单,能够起到正则化的作用。缺点就是L1的优点:无法获得sparse模型

L1正则化与稀疏性

事实上,”带正则项”和“带约束条件”是等价的。

为了约束w的可能取值空间从而防止过拟合,我们为该优异化问题加上一个约束,就是w的L1范数不能大于m:

{min∑Ni=1(wTxi−yi)2s.t.∥w∥1⩽m………(3)

问题转化成了带约束条件的凸优化问题,写出拉格朗日函数:

∑i=1N(wTxi−yi)2+λ(∥w∥1−m)……..(4)

设W∗和λ∗是原问题的优异解,则根据KKT条件得:

{0=∇w[∑Ni=1(WT∗xi−yi)2+λ∗(∥w∥1−m)]0⩽λ∗………(5)

仔细看上面名列前茅个式子,与公式(1)其实是等价的,等价于(3)式。

设L1正则化损失函数:J=J0+λ∑w|w|,其中J0=∑Ni=1(wTxi−yi)2是原始损失函数,加号后面的一项是L1正则化项,λ是正则化系数。

注意到L1正则化是权值的绝对值之和,J是带有绝对值符号的函数,因此J是不完全可微的。机器学习的任务就是要通过一些方法(比如梯度下降)求出损失函数的最小值。当我们在原始损失函数J0后添加L1正则化项时,相当于对J0做了一个约束。令L=λ∑w|w|,则J=J0+L,此时我们的任务变成在L约束下 出J0取最小值的解。

考虑二维的情况,即只有两个权值w1和w2,此时L=|w1|+|w2|对于梯度下降法,求解J0的过程可以画出等值线,同时L1正则化的函数L也可以在w1、w2的二维平面上画出来。

延伸阅读:

二、L2正则化为什么能防止过拟合

拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,专业一点的说法是抗扰动能力强。

以上就是关于l1正则和l2正则的区别的内容希望对大家有帮助。

声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。

猜你喜欢LIKE

NTLEA和Locale Emulator有哪些区别?

2023-10-14

iwatch3gps和蜂窝区别?

2023-10-14

面向对象编程,面向函数式编程,面向过程编程有什么区别?

2023-10-14

最新文章NEW

C 语言中不同类型指针的大小是否完全相同,为什么?

2023-10-14

My.Computer.FileSystem和System.IO.File两个命名空间有哪些具体区别?

2023-10-14

线性分类器与非线性分类器的区别?

2023-10-14

相关推荐HOT

更多>>

快速通道 更多>>

最新开班信息 更多>>

网友热搜 更多>>