方差计算公式(方差的两个公式)
http://threadreaderapp.com/origin/thread/1292293102103748609.html
所以,这些与深度学习有何关系?当使用(随机)梯度下降法来拟合神经网络时,实际上是在挑选最小范数解!因此,样条曲线示例非常类似于神经网络双下降时发生的情况。
Daniela 等人给出了合理的解释:关键在于 20DF,n=p 时,只有一个最小二乘拟合的训练误差为零。这种拟合会出现大量的振荡。
所以,选择最小范数最小二乘拟合实际上意味着 36DF 的样条曲线比 20DF 的样条曲线的灵活性差。
欣慰的是,结果并没有预期的那么糟。下图对比了 20DF 和 36DF 的结果,可见 36DF 的结果比 20DF 要好一点。这是什么原因呢?
首先,Daniela 等人拟合了一个 4DF 的样条曲线。n=20 时的观测值为灰色小圆点,f(x) 为黑色曲线,拟合函数为浅蓝色曲线。
下图是训练误差和测试误差曲线,两者的变化曲线差别非常大。以虚线为分界线,当 p>n 时,为什么测试误差(暂时)减少?这难道就是偏差 - 方差权衡所指的对立面吗?
8 月初,华盛顿大学统计学与生物统计学教授 Daniela Witten 在推特上发帖介绍了「偏差 - 方差权衡」与「双下降」之间的关系。这个帖子一经发出便收获了很多点赞与转发。
在这篇帖子里,Daniela Witten 教授给出了合理的解释。为了理解深度学习的双下降现象,她列举了一个与深度学习无关的简单示例:自然三次样条曲线(natural cubic spline)。
深度学习的双下降现象,偏差 - 方差权衡成立
偏差—方差之间的权衡判读对机器学习来说是非常重要的。在深度学习研究中,可能会遇到双下降现象,认为这有悖于偏差—方差权衡。本文通过一个统计学的例子,对偏差—方差权衡展开了形象的解读。
随着灵活性的增加,(平方)偏差减少,方差增加。「sweet spot」需要权衡偏差和方差,即具有中等程度灵活性的模型。
过去的几年中,尤其是在深度学习领域,已经出现双下降现象。当你继续拟合越来越灵活且对训练数据进行插值处理的模型时,测试误差会再次减小!
在深度学习的背景下,这一点似乎尤为突出(不过,正如我们看到的,这种情况在其他地方也会发生)。到底是怎么回事?偏差—方差权衡是否成立?教科书都错了吗?或者是深度学习的魔力?
上文中的 U 型测试误差曲线基于以下公式:
AI 大咖 Yann LeCun 也转发了该贴,他高度称赞了 Daniela Witten 教授对「双下降」现象的解读。LeCun 写道:「这是对双下降现象非常直观的解释。当模型能力『恰好』能够产生零训练误差时,该现象导致测试误差达到峰值。并且,峰值不会出现在多层网络中,因为它们呈现隐式正则化。」
选自Twitter,作者:Daniela Witten,机器之心编译,编辑:陈萍、杜伟
下图为 n=20,p=36DF 的拟合结果。
现在,如果在拟合样条曲线时使用了脊惩罚(ridge penalty),而不是最小二乘,结果会怎么样呢?这时将不会有插值训练集,也不会看到双下降,而且会得到更好的测试误差(前提是正确的调整参数值!)
然后拟合了一个 6DF 的样条曲线。
Daniela Witten 教授的解读究竟有哪些独到之处呢?她开篇是这样介绍的:「还记得偏差—方差权衡吗?它意味着模型在中等程度灵活性条件下表现良好。图中可以看到 U 形测试误差曲线。我们试图找到灵活性的『最佳点』(Sweet Spot)」。
为了拟合样条曲线,Daniela 等人创建了一些基函数,然后通过最小二乘法将响应(response)Y 拟合到基函数上。所用基函数的数量与样条曲线的自由度(degrees of freedom, DF)相同。基函数基本形式如下:
接着尝试拟合 20DF 的样条曲线,这不是一个好主意。因为得到了 n=20 的观测值,所以为了拟合 20DF 的样条曲线,需要用 20 个特征来运行最小二乘法!结果显示在训练集上零误差,但在测试集上误差非常大!这些糟糕的结果也非常符合偏差 - 方差权衡的预测。
因此双下降是真实发生的,并不是深度学习魔法。通过统计 - ML 和偏差 - 方差权衡可以理解它。一切都不是魔法,只是统计在发挥作用。
总结
原文链接:
虽然在 20DF 的测试结果非常差,但 Daniela 等人还是进行了 n=20,p=36DF 时的最小二乘法拟合。
偏差 - 方差权衡不成立吗?
但是当增加 DF,使得 p>n 时,则会出现大量的插值最小二乘拟合。最小范数的最小二乘拟合是这无数多个拟合中振荡最小的,甚至比 p=n 时的拟合更稳定。
独到的偏差 - 方差权衡解读
这时 p>n,解是不唯一的。为了在无穷多个解中进行选择,Daniela 等人选择了「最小」范数拟合:系数平方和最小的那个(使用了大家最喜欢的矩阵分解 SVD,以实现轻松计算)
假设 n=20(X, Y),并且想用样条曲线 Y = f(X)+ epsilon 估计 f(X)(此处 f(X)= sin(X)) 。
首先介绍一下什么是样条曲线?本质上,这是一种拟合模型 Y=f(X)+epsilon 的方法,f 是非参数的,由非常光滑的分段多项式构成。
财政部、税务总局发布《关于部分成品油消费税政策执行口径的公告》
央视网消息:据财政部网站消息,日前财政部、税务总局发布《关于部分成品油消费税政策执行口径的公告》,具体内容如下。为促进成品油行业规范健康发展,根据《财政部国家税务总局关于提高成品油消费税税率的通知》(财税〔2008〕167号),现将符合《成品油消费税征收范围注释》规定的部分成品油消费税政策执行口径公告如下:一、对烷基化油(异辛烷)按照汽油征收消费税。0002聚焦人工智能等前沿技术 多种新技术应用亮相网络安全博览会
来源:央视网央视网消息:9月11日—17日是国家网络安全宣传周。作为网络安全宣传周重要组成部分,网络安全博览会昨天(9月10日)在福州举办。0000全力以赴的意思 全力以赴怎么形容
以下为本人每日读书后分享的体会。感谢阅读。在日常生活中,当有熟悉的人向我们发出求助想要我们帮忙一件事情,我们在答应帮助别人时常常会说这件事我会尽力而为。但当我们在做某件对自己有利的事情时,我们的心里都会想着,这件事我一定会全力以赴地把它做好。尽力而为和全力以赴这两个词,虽然在字面意思上都是表达了一个我们会把一件事情给做好。但是这两个词的内涵也反映了两种不同的人生态度。大财经2023-03-22 10:21:580000印度资金银行急速撤离香港,竟与淘宝盛行有关?
自2020年初香港爆疫之后的3年期间,严格的防疫措施令香港近乎与世隔绝,不时传来外资银行撤离的消息。事实上,从金管局资料显示,截至今年10月的本港持牌银行数目为151家,较疫前减少13家,除欧资银行外,印度资金银行也急脚撤出,7年间在港数目削半至6家。不过,金融界立法会议员陈振英表示,据其了解,印资行出现这现象主要因为淘宝盛行打击它们的贸易融资业务所致。大财经2023-11-21 15:02:280000上海车展|对话东风日产陈浩村:进入纯电和混动赛道正当其时
本报记者赵毅黄琳上海报道在2023年上海国际车展上,各大车企陆续推动电驱化转型,并扎堆发布新款车型或新技术。其中,东风日产站在20周年的关键节点,正式向外界宣告电驱化全面提速的计划,明确“纯电、e-POWER、插电混动”三大动力技术路径,三大品牌协同作战,布局覆盖中高端市场的电驱产品矩阵。大财经2023-04-30 08:06:510000