① 卷积神经网络参数解析
(1)现象:
(1-1)一次性将batch数量个样本feed神经网络,进行前向传播;然后再进行权重的调整,这样的一整个过程叫做一个回合(epoch),也即一个batch大小样本的全过程就是一次迭代。
(1-2)将训练数据分块,做成批(batch training)训练可以将多个训练数据元的loss function求和,使用梯度下降法,最小化 求和后的loss function ,进而对神经网络的参数进行优化更新
(2)一次迭代:包括前向传播计算输出向量、输出向量与label的loss计算和后向传播求loss对权重向量 w 导数(梯度下降法计算),并实现权重向量 w 的更新。
(3)优点:
(a)对梯度向量(代价函数对权值向量 w 的导数)的精确估计,保证以最快的速度下降到局部极小值的收敛性;一个batch一次梯度下降;
(b)学习过程的并行运行;
(c)更加接近随机梯度下降的算法效果;
(d)Batch Normalization 使用同批次的统计平均和偏差对数据进行正则化,加速训练,有时可提高正确率 [7]
(4)现实工程问题:存在计算机存储问题,一次加载的batch大小受到内存的影响;
(5)batch参数选择:
(5-1)从收敛速度的角度来说,小批量的样本集合是最优的,也就是我们所说的mini-batch,这时的batch size往往从几十到几百不等,但一般不会超过几千
(5-2)GPU对2的幂次的batch可李丛核以发挥更佳的性能,因此设置成16、32、64、128...时往往要比设置为整10、整100的倍数时表现更优
(6)4种加速批郑槐梯度下降的方法 [8] :
(6-1)使用动量-使用权重的 速度 而非 位置 来改变权重。
(6-2)针对不同权重参数使用不同学习率。
(6-3)RMSProp-这是Prop 的均方根 ( Mean Square ) 改进形式,Rprop 仅仅使用梯度的符号,RMSProp 是其针对 Mini-batches 的平均化版本
(6-4)利用曲率信息的最优化方法。
(1)定义:运用梯度下降算法优化loss成本函数时,权重向量的更新规则中,在梯度项前会乘以一个系数,这个系数就叫学习速率η
(2)效果:
(2-1)学习率η越小,每次迭代权值向量变化小,学习速度慢,轨迹在权值空间中较光滑,收敛慢;
(2-2)学习率η越大,每次迭代权值向量变化大,学习速度快,但是有可能使变化处于震荡中,无法收敛;
(3)处理方法:
(3-1)既要加快学习速度又要保持稳定的方法修改delta法哪掘则,即添加动量项。
(4)选择经验:
(4-1)基于经验的手动调整。 通过尝试不同的固定学习率,如0.1, 0.01, 0.001等,观察迭代次数和loss的变化关系,找到loss下降最快关系对应的学习率。
(4-2)基于策略的调整。
(4-2-1)fixed 、exponential、polynomial
(4-2-2)自适应动态调整。adadelta、adagrad、ftrl、momentum、rmsprop、sgd
(5)学习率η的调整:学习速率在学习过程中实现自适应调整(一般是衰减)
(5-1)非自适应学习速率可能不是最佳的。
(5-2)动量是一种自适应学习速率方法的参数,允许沿浅方向使用较高的速度,同时沿陡峭方向降低速度前进
(5-3)降低学习速率是必要的,因为在训练过程中,较高学习速率很可能陷入局部最小值。
参考文献:
[1] Simon Haykin. 神经网络与机器学习[M]. 机械工业出版社, 2011.
[2] 训练神经网络时如何确定batch的大小?
[3] 学习笔记:Batch Size 对深度神经网络预言能力的影响
[4] 机器学习算法中如何选取超参数:学习速率、正则项系数、minibatch size. http://blog.csdn.net/u012162613/article/details/44265967
[5] 深度学习如何设置学习率 . http://blog.csdn.net/mao_feng/article/details/52902666
[6] 调整学习速率以优化神经网络训练. https://zhuanlan.hu.com/p/28893986
[7] 机器学习中用来防止过拟合的方法有哪些?
[8] Neural Networks for Machine Learning by Geoffrey Hinton .
[9] 如何确定卷积神经网络的卷积核大小、卷积层数、每层map个数
[10] 卷积神经网络的卷积核大小、卷积层数、每层map个数都是如何确定下来的呢?
② matlab中BP神经网络如何设置初始权重
因为初始值(初始权值和阀值)都在x这个向量中,x(n,1)的长度n为:n=inputnum*hiddennum+hiddennum+hiddennum*outputnum+outputnum
其中inputnum*hiddennum是输入层到隐含层的权值数量,hiddennum是隐含层神经元个数(即隐含层阀值个数),hiddennum*outputnum是隐含层到输出层权值个数,outputnum是输出层神经元个数(即输出层阀值个数);
③ 神经网络权值怎么确定
神经网络的权值是通过对网络的训练得到的。如果使用MATLAB的话不要自己设定,newff之后会自动赋值。也可以手动:net.IW{}= ; net.bias{}=。一般来说输入归一化,那么w和b取0-1的随机数就行。神经网络的权值确定的目的是为了让神经网络在训练过程中学习到有用的信息,这意味着参数梯度不应该为0。
参数初始化要满足两个必要条件:
1、各个激活层不会出现饱和现象,比如对于sigmoid激活函数,初始化值不能太大或太小,导致陷入其饱和区。
2、各个激活值不为0,如果激活层输出为零,也就是下一层卷积层的输入为零,所以这个卷积层对权值求偏导为零,从而导致梯度为0。
(3)神经网络怎么改变权重扩展阅读:
神经网络和权值的关系。
在训练智能体执行任务时,会选择一个典型的神经网络框架,并相信它有潜力为这个任务编码特定的策略。注意这里只是有潜力,还要学习权重参数,才能将这种潜力变化为能力。
受到自然界早成行为及先天能力的启发,在这项工作中,研究者构建了一个能自然执行给定任务的神经网络。也就是说,找到一个先天的神经网络架构,然后只需要随机初始化的权值就能执行任务。研究者表示,这种不用学习参数的神经网络架构在强化学习与监督学习都有很好的表现。
其实如果想象神经网络架构提供的就是一个圈,那么常规学习权值就是找到一个最优点(或最优参数解)。但是对于不用学习权重的神经网络,它就相当于引入了一个非常强的归纳偏置,以至于,整个架构偏置到能直接解决某个问题。
但是对于不用学习权重的神经网络,它相当于不停地特化架构,或者说降低模型方差。这样,当架构越来越小而只包含最优解时,随机化的权值也就能解决实际问题了。如研究者那样从小架构到大架构搜索也是可行的,只要架构能正好将最优解包围住就行了。
④ BP神经网络如何自定义权重值
0到1之间随即定,然后根据最速下降法或者遗传算法对其进行优化即可。