博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
深度学习网络结构中超参数momentum了解
阅读量:6823 次
发布时间:2019-06-26

本文共 687 字,大约阅读时间需要 2 分钟。

       训练网络时,通常先对网络的初始权值按照某种分布进行初始化,如:高斯分布。初始化权值操作对最终网络的性能影响比较大,合适的网络初始权值能够使得损失函数在训练过程中的收敛速度更快,从而获得更好的优化结果。但是按照某类分布随机初始化网络权值时,存在一些不确定因素,并不能保证每一次初始化操作都能使得网络的初始权值处在一个合适的状态。不恰当的初始权值可能使得网络的损失函数在训练过程中陷入局部最小值,达不到全局最优的状态。因此,如何消除这种不确定性,是训练深度网络是必须解决的一个问题。 momentum 动量能够在一定程度上解决这个问题。momentum 动量是依据物理学的势能与动能之间能量转换原理提出来的。当 momentum 动量越大时,其转换为势能的能量也就越大,就越有可能摆脱局部凹域的束缚,进入全局凹域。momentum 动量主要用在权重更新的时候。一般,神经网络在更新权值时,采用如下公式:

                         w = w - learning_rate * dw
引入momentum后,采用如下公式:
               v = mu * v - learning_rate * dw

               w = w + v

其中,v初始化为0,mu是设定的一个超变量,最常见的设定值是0.9。可以这样理解上式:如果上次的momentum(v)与这次的负梯度方向是相同的,那这次下降的幅度就会加大,从而加速收敛。

转载于:https://www.cnblogs.com/llfctt/p/9037581.html

你可能感兴趣的文章
redis运维的一些知识点
查看>>
ZZZZ
查看>>
Win7或Windows server 2008中IIS7支持ASP+Access解决方法
查看>>
intent 图片调用问题
查看>>
div仿框架布局
查看>>
Windows 服务(附服务开发辅助工具)
查看>>
asp.net mvc的生命周期{转}
查看>>
SOLR (全文检索)
查看>>
PIGS(最大流)
查看>>
Adding Swap Files
查看>>
CentOS 配置集群机器之间SSH免密码登录
查看>>
JSP页面中taglib的uri设置
查看>>
OpenCV学习笔记——OpenCV安装
查看>>
设计模式那点事--建造者模式
查看>>
第六章 字节码执行方式--解释执行和JIT
查看>>
漫画:什么是红黑树?
查看>>
图灵简传
查看>>
LeetCode: Combinations 解题报告
查看>>
评“SuperMap Objects"
查看>>
如何将多个PPT文件合并到一个PPT中
查看>>