Ⅰ ResNet网络
ResNet (Resial Neural Network,残差网络)由微软研究院何凯明等人提出的,通过在深度神经网络中加入残差单元(Resial Unit)使得训练深度比以前更加高效。ResNet在2015年的ILSVRC比赛中夺得冠军,ResNet的结构可以极快的加速超深神经网络的训练,模型准确率也有非常大的提升。
在ResNet之前,瑞士教授Schimidhuber提出了Highway Network,其原理与ResNet非常相似。通常认为神经网络的深度对其性能非常重要,但是网络越深训练越困难,Highway Network的目标就是解决极深的神经网络难以训练的问题。
Highway Network相当于修改了每一层激活函数,此前激活函数只是对输入做一次非线性变换y=H(x, Wh), 而Highway Network则允许保留一部分比例的原始输入x,即y=H(x, Wh)* T(x , Wt)+x*C(x, Wc),其中T为变换系数,C为保留系数,论文中令C=1-T。这样前面一层的信息,有一定比例可以不经过矩阵乘法和非线性变换,直接传输到下一层,仿佛一条信息高速公路,因此得名Highway Network。
结果显示,B比A略好,这是因为A中的零填充确实没有残差学习。而C比B稍好,这是由于投影快捷连接引入了额外参数。但A、B、C之间的细微差异表明投影连接对于解决退化问题不是至关重要的,而不/少使用投影连接可以减少内存/时间复杂性和模型大小。而且无参数恒等快捷连接对于瓶颈架构(3层残差学习单元)尤为重要,因为瓶颈架构中层具有较小的输入输出,快捷连接是连接到两个高维端,此时恒等快捷连接无需参数,而使用投影的话则会显示时间和模型复杂度加倍。因此,恒等快捷连接可以为瓶颈设计得到更有效的模型。
最后,作者尝试了更深的1000层以上的神经网络,发现神经网络仍然能够较好的学习,但是其测试误差比100多层的残差网络要差,而训练误差则与100多层的残差网络相似,作者认为这可能是由于过拟合导致的,可通过加大正则化来解决这一问题。
在ResNet V1中,作者研究通过加入残差单元使得训练深度达到上百层的神经网络成为可能,解决了梯度消失/爆炸的问题。而在ResNet V2中作者进一步证明了恒等映射(Identity mapping)的重要性。同时作者还提出了一种新的残差单元(采用了预激活)使得训练变得更简单,同时还提高了模型的泛化能力。
在ResNet V2中,作者提出了不止在残差单元内部,而是在整个神经网络中都创建了‘直接’的计算传播路径。在ResNet V1中,残差学习单元的
上式同样表明了在一个mini-batch中不可能出现梯度消失的现象,因为上式求导的第二部分对于一个mini-batch来说,不可能所有样本其导数都为-1,因此,可能会出现权重很小的情况,但是不会出现梯度消失的情况。
通过研究这些不同的快捷连接,作者发现大部分快捷连接方式无法很好地收敛,其中很大部分是由于使用这些快捷连接后或多或少会出现梯度消失或者梯度爆炸的现象,最后结果显示恒等映射效果最好。
虽然恒等映射在这些方法中表写结果最好,仍需引起注意的是1×1的卷积捷径连接引入了更多的参数,本应该比恒等捷径连接具有更加强大的表达能力。事实上,shortcut-only gating 和1×1的卷积涵盖了恒等捷径连接的解空间(即,他们能够以恒等捷径连接的形式进行优化)。然而,它们的训练误差比恒等捷径连接的训练误差要高得多,这表明了这些模型退化问题的原因是优化问题,而不是表达能力的问题。
在上图b中,采用先加后BN再激活的方法,此时f(x)就包含了BN和ReLU。这样的结果比原始a要差。这主要是因为BN层改变了流经快捷连接的信号,阻碍了信息的传递。
在c中,ReLU在相加之前,此时f(x)=x,为恒等映射。此时残差单元中的F(x)输出经由ReLU后变为非负,然而一个“残差”函数的输出应该是(−∞,+∞) 的。造成的结果就是,前向传递的信号是单调递增的。这会影响表达能力,结果也变得更差了。
结果显示,只使用ReLU预激活(d)的结果与原始ResNet结果很接近,这个与ReLU层不与BN层连接使用,因此无法获得BN所带来的好处。而当BN和ReLU都使用在预激活上时(e),结果得到了可观的提升。
预激活的影响有两个方面:第一,由于f(x)也是恒等映射,相比于V1优化变得更加简单;第二,在预激活中使用BN能提高模型的正则化。
对于f(x)为恒等映射的好处:一方面若使用f= ReLU,如果信号是负的时候会造成一定的影响,无法传递有用的负信号,而当残差单元很多时,这个影响将会变得尤为突出;另一方面当f是一个恒等映射时,信号在两个单元间能够很直接的传递。
在ResNet V1中作者提出了残差学习单元,并从理论和实验上证明使用直连的shortcuts有助于解决深度达到上百层的神经网络的训练问题。而在ResNet V2中作者证明了在shortcuts中使用直接映射(即H(x) = h(x) + F(x)中h(x) = x)得到的效果最好。在ResNext中作者将bottleneck拆分成多个分支,提出了神经网络中的第三个维度(另外两个维度分别为depth,神经网络层数深度,width,宽度,channel数),命名为 Cardinality ,并在多个数据集中证明了将bottleneck拆分能够降低训练错误率和提高准确率。
ResNext的灵感来源于VGG/ResNet和Inception:(1)在VGG、ResNet中,作者使用了相同结构的卷积层进行了堆叠,构建了层数很深但是结构简单的神经网络;(2)而在Inception中,提出了一种叫做 split-transform-merge 的策略,将输入(采用1x1 卷积核)分裂为几个低维 embedding,再经过一系列特定卷积层的变换,最后连接在一起。
而在ResNet中,作者将原ResNet bottleneck中的一条path拆分为多个分支(multi branch),以此分支数量提出神经网络中的第三个重要维度——Cardinality。这一想法结合了VGG中的相同结构堆叠和Inception中的split-transform-merge策略,即如上图所示,每个bottleneck 拆分为多个分支进行堆叠,这些分支的结构相同(这里借鉴了VGG的思想),而具体到分支的结构时又采用了Inception的split-transform-merge策略。与Inception不同的是Inception的每个分支结构都是需要认为的设计,而在ResNext中每个分支结构都相同。最终每个bottleneck的输出就变成了:
这些所有的bottlenecks结构都遵循两个原则:
作者提出了 三种效果相同的ResNext的表示方法,如下图所示:
其中a,b 结构相似,只是在merge这一步的地方不同,而c则借鉴了AlexNet中分组卷积的思想,将输入和输出都分为多个组。
作者首先评估权衡了cardinality和width的关系。
接着,作者又评估了使用增加cardinality和depth/width来增加模型复杂度后的效果:
最后,作者还研究了shortcuts对于ResNext的重要性,在ResNet-50中,不使用shortcuts准确率下降了7%,而在ResNext-50中准确率也下降了4%,说明shortcuts对于残差网络来说确实是非常重要的。
简言之,增加cardinality比增加depth和width效果要好,同时,shortcuts对于模型的准确率也是至关重要的。
参考:
Deep Resial Learning for Image Recognition.
Aggregated Resial Transformations for Deep Neural Networks.
Identity Mappings in Deep Resial Networks.
ResNet论文翻译——中文版
Identity Mappings in Deep Resial Networks(译)
TensorFlow实现经典卷积网络. 黄文坚,唐源
Ⅱ 深入理解BP神经网络
BP神经网络是一种多层的前馈神经网络,其主要的特点是:信号是前向传播的,而误差是反向传播的。具体来说,对于如下的只含一个隐层的神经网络模型:
BP神经网络的过程主要分为两个阶段,第一阶段是信号的前向传播,从输入层经过隐含层,最后到达输出层;第二阶段是误差的反向传播,从输出层到隐含层,最后到输入层,依次调节隐含层到输出层的权重和偏置,输入层到隐含层的权重和偏置。
神经网络的基本组成单元是神经元。神经元的通用模型如图所示,其中常用的激活函数有阈值函数、sigmoid函数和双曲正切函数。
神经元的输出为:
神经网络是将多个神经元按一定规则联结在一起而形成的网络,如图 所示。
从图 可以看出,一个神经网络包括输入层、隐含层(中间层)和输出层。输入层神经元个数与输入数据的维数相同,输出层神经元个数与需要拟合的数据个数相同,隐含层神经元个数与层数就需要设计者自己根据一些规则和目标来设定。在深度学习出现之前,隐含层的层数通常为一层,即通常使用的神经网络是3层网络。
BP网络采用的传递函数是非线性变换函数——Sigmoid函数(又称S函数)。其特点是函数本身及其导数都是连续的,因而在处理上十分方便。为什么要选择这个函数,等下在介绍BP网络的学习算法的时候会进行进一步的介绍。S函数有单极性S型函数和双极性S型函数两种,单极性S型函数定义如下:f(x)=1/1+e−x
其函数曲线如图所示:
双极性S型函数:f(x)=1−e−x/1+e−x
使用S型激活函数时,输入:
输出:
输出的导数:
使用S型激活函数时,BP网络的输出及其导数图形:
根据S激活函数的图形:
net在 -5~0 的时候导数的值为正,且导数的值逐渐增大, 说明此时f(x)在逐渐变大 且 变大的速度越来越快
net在 0~5 的时候导数的值为正,且导数的值逐渐减小, 说明此时f(x)在逐渐变大 但是 变大的速度越来越慢
对神经网络进行训练,我们应该尽量将net的值尽量控制在收敛比较快的范围内。
1. 定义一个BP神经网络的类,设置网络相关参数
2. 实例化该神经网络,按下图被构建成一个输出3维,输出1维,带有3个隐藏层(每个隐藏层10个节点)的BP网络;(此处还可以随意扩展输入、输出维度和隐藏层相关系数)
3. 初始化BP神经网络的时候,开始初始化各层网络节点的 权重、权重动量、误差初始值
4. 引入学习训练数据;4组输入、输出数据迭代5000次
5000次中不断向前逐层计算输出的节点数据
并同时逐层计算误差反向修改权重值,直到迭代完毕;注意误差函数值必须呈现下降趋势
5. 引入数据进行结果预测,将数据带回模型计算得结果;最终可知预测结果趋近于0.7
神经网络利用现有的数据找出输入与输出之间得权值关系(近似),然后利用这样的权值关系进行仿真,例如输入一组数据仿真出输出结果,当然你的输入要和训练时采用的数据集在一个范畴之内。例如预报天气:温度 湿度 气压等作为输入 天气情况作为输出利用历史得输入输出关系训练出神经网络,然后利用这样的神经网络输入今天的温度 湿度 气压等 得出即将得天气情况。同理,运用到自动化测试中,使用测试数据反映结果走向,bug数,质量问题等情况也可以做到提前预测的!
附录:
Ⅲ 嵌入式与神经网络(一):CNN概述
姓名:王央京 学号:18050100052 学院:电子工程学院
转自:https://blog.csdn.net/qq_25762497/article/details/51052861
【嵌牛导读】本文介绍了卷积神经网络的基本概念
【嵌牛鼻子】CNN(卷积神经网络)
【嵌牛提问】对于深度学习进行初步学习,需要了解哪些概念?
【嵌牛正文】
卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。
卷积神经网络与普通神经网络非常相似,它们都由具有可学习的权重和偏置常量(biases)的神经元组成。每个神经元都接收一些输入,并做一些点积计算,输出是每个分类的分数,普通神经网络里的一些计算技巧到这里依旧适用。
所以哪里不同呢?卷积神经网络默认输入是图像,可以让我们把特定的性质编码入网络结构,使我们的前馈函数更加有效率,并减少了大量参数。
卷积神经网络利用输入是图片的特点,把神经元设计成三个维度 : width, height, depth(注意这个depth不是神经网络的深度,而是用来描述神经元的) 。比如输入的图片大小是 32 × 32 × 3 (rgb),那么输入神经元就也具有 32×32×3 的维度。下面是图解:
传统神经网络
一个卷积神经网络由很多层组成,它们的输入是三维的,输出也是三维的,有的层有参数,有的层不需要参数。
卷积神经网络通常包含以下几种层:
卷积层(Convolutional layer) ,卷积神经网路中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。
线性整流层(Rectified Linear Units layer, ReLU layer) ,这一层神经的活性化函数(Activation function)使用线性整流(Rectified Linear Units, ReLU)f(x)=max(0,x)f(x)=max(0,x)。
池化层(Pooling layer) ,通常在卷积层之后会得到维度很大的特征,将特征切成几个区域,取其最大值或平均值,得到新的、维度较小的特征。
全连接层( Fully-Connected layer) , 把所有局部特征结合变成全局特征,用来计算最后每一类的得分。
最后展示一个卷积神经网络各层应用实例:
Ⅳ 一文读懂神经网络
要说近几年最引人注目的技术,无疑的,非人工智能莫属。无论你是否身处科技互联网行业,随处可见人工智能的身影:从 AlphaGo 击败世界围棋冠军,到无人驾驶概念的兴起,再到科技巨头 All in AI,以及各大高校向社会输送海量的人工智能专业的毕业生。以至于人们开始萌生一个想法:新的革命就要来了,我们的世界将再次发生一次巨变;而后开始焦虑:我的工作是否会被机器取代?我该如何才能抓住这次革命?
人工智能背后的核心技术是深度神经网络(Deep Neural Network),大概是一年前这个时候,我正在回老家的高铁上学习 3Blue1Brown 的 Neural Network 系列视频课程,短短 4 集 60 多分钟的时间,就把神经网络从 High Level 到推导细节说得清清楚楚,当时的我除了获得新知的兴奋之外,还有一点新的认知,算是给头脑中的革命性的技术泼了盆冷水:神经网络可以解决一些复杂的、以前很难通过写程序来完成的任务——例如图像、语音识别等,但它的实现机制告诉我,神经网络依然没有达到生物级别的智能,短期内期待它来取代人也是不可能的。
一年后的今天,依然在这个春运的时间点,将我对神经网络的理解写下来,算是对这部分知识的一个学习笔记,运气好的话,还可以让不了解神经网络的同学了解起来。
维基网络这样解释 神经网络 :
这个定义比较宽泛,你甚至还可以用它来定义其它的机器学习算法,例如之前我们一起学习的逻辑回归和 GBDT 决策树。下面我们具体一点,下图是一个逻辑回归的示意图:
其中 x1 和 x2 表示输入,w1 和 w2 是模型的参数,z 是一个线性函数:
接着我们对 z 做一个 sigmod 变换(图中蓝色圆),得到输出 y:
其实,上面的逻辑回归就可以看成是一个只有 1 层 输入层 , 1 层 输出层 的神经网络,图中容纳数字的圈儿被称作 神经元 ;其中,层与层之间的连接 w1、w2 以及 b,是这个 神经网络的参数 ,层之间如果每个神经元之间都保持着连接,这样的层被称为 全连接层 (Full Connection Layer),或 稠密层 (Dense Layer);此外,sigmoid 函数又被称作 激活函数 (Activation Function),除了 sigmoid 外,常用的激活函数还有 ReLU、tanh 函数等,这些函数都起到将线性函数进行非线性变换的作用。我们还剩下一个重要的概念: 隐藏层 ,它需要把 2 个以上的逻辑回归叠加起来加以说明:
如上图所示,除输入层和输出层以外,其他的层都叫做 隐藏层 。如果我们多叠加几层,这个神经网络又可以被称作 深度神经网络 (Deep Neural Network),有同学可能会问多少层才算“深”呢?这个没有绝对的定论,个人认为 3 层以上就算吧:)
以上,便是神经网络,以及神经网络中包含的概念,可见,神经网络并不特别,广义上讲,它就是
可见,神经网络和人脑神经也没有任何关联,如果我们说起它的另一个名字—— 多层感知机(Mutilayer Perceptron) ,就更不会觉得有多么玄乎了,多层感知机创造于 80 年代,可为什么直到 30 年后的今天才爆发呢?你想得没错,因为改了个名字……开个玩笑;实际上深度学习这项技术也经历过很长一段时间的黑暗低谷期,直到人们开始利用 GPU 来极大的提升训练模型的速度,以及几个标志性的事件:如 AlphaGo战胜李世石、Google 开源 TensorFlow 框架等等,感兴趣的同学可以翻一下这里的历史。
就拿上图中的 3 个逻辑回归组成的神经网络作为例子,它和普通的逻辑回归比起来,有什么优势呢?我们先来看下单逻辑回归有什么劣势,对于某些情况来说,逻辑回归可能永远无法使其分类,如下面数据:
这 4 个样本画在坐标系中如下图所示
因为逻辑回归的决策边界(Decision Boundary)是一条直线,所以上图中的两个分类,无论你怎么做,都无法找到一条直线将它们分开,但如果借助神经网络,就可以做到这一点。
由 3 个逻辑回归组成的网络(这里先忽略 bias)如下:
观察整个网络的计算过程,在进入输出层之前,该网络所做的计算实际上是:
即把输入先做了一次线性变换(Linear Transformation),得到 [z1, z2] ,再把 [z1, z2] 做了一个非线性变换(sigmoid),得到 [x1', x2'] ,(线性变换的概念可以参考 这个视频 )。从这里开始,后面的操作就和一个普通的逻辑回归没有任何差别了,所以它们的差异在于: 我们的数据在输入到模型之前,先做了一层特征变换处理(Feature Transformation,有时又叫做特征抽取 Feature Extraction),使之前不可能被分类的数据变得可以分类了 。
我们继续来看下特征变换的效果,假设 为 ,带入上述公式,算出 4 个样本对应的 [x1', x2'] 如下:
再将变换后的 4 个点绘制在坐标系中:
显然,在做了特征变换之后,这两个分类就可以很容易的被一条决策边界分开了。
所以, 神经网络的优势在于,它可以帮助我们自动的完成特征变换或特征提取 ,尤其对于声音、图像等复杂问题,因为在面对这些问题时,人们很难清晰明确的告诉你,哪些特征是有用的。
在解决特征变换的同时,神经网络也引入了新的问题,就是我们需要设计各式各样的网络结构来针对性的应对不同的场景,例如使用卷积神经网络(CNN)来处理图像、使用长短期记忆网络(LSTM)来处理序列问题、使用生成式对抗网络(GAN)来写诗和作图等,就连去年自然语言处理(NLP)中取得突破性进展的 Transformer/Bert 也是一种特定的网络结构。所以, 学好神经网络,对理解其他更高级的网络结构也是有帮助的 。
上面说了,神经网络可以看作一个非线性函数,该函数的参数是连接神经元的所有的 Weights 和 Biases,该函数可以简写为 f(W, B) ,以手写数字识别的任务作为例子:识别 MNIST 数据集 中的数字,数据集(MNIST 数据集是深度学习中的 HelloWorld)包含上万张不同的人写的数字图片,共有 0-9 十种数字,每张图片为 28*28=784 个像素,我们设计一个这样的网络来完成该任务:
把该网络函数所具备的属性补齐:
接下来的问题是,这个函数是如何产生的?这个问题本质上问的是这些参数的值是怎么确定的。
在机器学习中,有另一个函数 c 来衡量 f 的好坏,c 的参数是一堆数据集,你输入给 c 一批 Weights 和 Biases,c 输出 Bad 或 Good,当结果是 Bad 时,你需要继续调整 f 的 Weights 和 Biases,再次输入给 c,如此往复,直到 c 给出 Good 为止,这个 c 就是损失函数 Cost Function(或 Loss Function)。在手写数字识别的列子中,c 可以描述如下:
可见,要完成手写数字识别任务,只需要调整这 12730 个参数,让损失函数输出一个足够小的值即可,推而广之,绝大部分神经网络、机器学习的问题,都可以看成是定义损失函数、以及参数调优的问题。
在手写识别任务中,我们既可以使用交叉熵(Cross Entropy)损失函数,也可以使用 MSE(Mean Squared Error)作为损失函数,接下来,就剩下如何调优参数了。
神经网络的参数调优也没有使用特别的技术,依然是大家刚接触机器学习,就学到的梯度下降算法,梯度下降解决了上面迭代过程中的遗留问题——当损失函数给出 Bad 结果时,如何调整参数,能让 Loss 减少得最快。
梯度可以理解为:
把 Loss 对应到 H,12730 个参数对应到 (x,y),则 Loss 对所有参数的梯度可以表示为下面向量,该向量的长度为 12730:
$$
abla L(w,b) = left[
frac{partial L}{partial w_1},
frac{partial L}{partial w_2},...,
frac{partial L}{partial b_{26}}
ight] ^ op
$$
所以,每次迭代过程可以概括为
用梯度来调整参数的式子如下(为了简化,这里省略了 bias):
上式中, 是学习率,意为每次朝下降最快的方向前进一小步,避免优化过头(Overshoot)。
由于神经网络参数繁多,所以需要更高效的计算梯度的算法,于是,反向传播算法(Backpropagation)呼之欲出。
在学习反向传播算法之前,我们先复习一下微积分中的链式法则(Chain Rule):设 g = u(h) , h = f(x) 是两个可导函数,x 的一个很小的变化 △x 会使 h 产生一个很小的变化 △h,从而 g 也产生一个较小的变化 △g,现要求 △g/△x,可以使用链式法则:
有了以上基础,理解反向传播算法就简单了。
假设我们的演示网络只有 2 层,输入输出都只有 2 个神经元,如下图所示:
其中 是输入, 是输出, 是样本的目标值,这里使用的损失函数 L 为 MSE;图中的上标 (1) 或 (2) 分别表示参数属于第 (1) 层或第 (2) 层,下标 1 或 2 分别表示该层的第 1 或 第 2 个神经元。
现在我们来计算 和 ,掌握了这 2 个参数的偏导数计算之后,整个梯度的计算就掌握了。
所谓反向传播算法,指的是从右向左来计算每个参数的偏导数,先计算 ,根据链式法则
对左边项用链式法则展开
又 是输出值, 可以直接通过 MSE 的导数算出:
而 ,则 就是 sigmoid 函数的导数在 处的值,即
于是 就算出来了:
再来看 这一项,因为
所以
注意:上面式子对于所有的 和 都成立,且结果非常直观,即 对 的偏导为左边的输入 的大小;同时,这里还隐含着另一层意思:需要调整哪个 来影响 ,才能使 Loss 下降得最快,从该式子可以看出,当然是先调整较大的 值所对应的 ,效果才最显着 。
于是,最后一层参数 的偏导数就算出来了
我们再来算上一层的 ,根据链式法则 :
继续展开左边这一项
你发现没有,这几乎和计算最后一层一摸一样,但需要注意的是,这里的 对 Loss 造成的影响有多条路径,于是对于只有 2 个输出的本例来说:
上式中, 都已经在最后一层算出,下面我们来看下 ,因为
于是
同理
注意:这里也引申出梯度下降的调参直觉:即要使 Loss 下降得最快,优先调整 weight 值比较大的 weight。
至此, 也算出来了
观察上式, 所谓每个参数的偏导数,通过反向传播算法,都可以转换成线性加权(Weighted Sum)计算 ,归纳如下:
式子中 n 代表分类数,(l) 表示第 l 层,i 表示第 l 层的第 i 个神经元。 既然反向传播就是一个线性加权,那整个神经网络就可以借助于 GPU 的矩阵并行计算了 。
最后,当你明白了神经网络的原理,是不是越发的认为,它就是在做一堆的微积分运算,当然,作为能证明一个人是否学过微积分,神经网络还是值得学一下的。Just kidding ..
本文我们通过
这四点,全面的学习了神经网络这个知识点,希望本文能给你带来帮助。
参考:
Ⅳ 深层神经网络
如上图所示,逻辑回归是一个浅层模型,可以理解为是单层神经网络。深层或浅层是一个程度的问题。如果将逻辑回归模型加入一个隐藏层就变了一个双层神经网络,但还是比较浅的。如果加入 5 个隐藏层,则可以说是一个深层模型。通常可以把隐藏层数当作超参数,然后在交叉验证数据集上进行评估,从而选择合适的深度。
上图是一个 4 层的神经网络,包括三个隐藏层和一个输出层,隐藏层的单元数分别是 5 5 3,输出层只有一个单元。通常用 L 表示神经网络的层数,用 表示第 层的单元数,可以把输入层当作第 0 层孙雹。那么图中 L = 4, , , , , 。可以用 表示第 层的激活值,即 ,用 和 表示在 公式中计算 值的权重,即 。输入用 X 表示,X 也是第 0 层,所以 ,最后一层 ,也就是说 即为神经网络的预测值(输出值)。
假设有一个样本 x,那么:
第一层计算: ,其中 x 也可以表示为 , w 和 b 是会影响第 1 层的激活单元的参数,接下来计算: ,后面几层的计算也是如此。
第二层计算: ,
第三层计算: ,
第四层计算: ,
可以总结出,计算规律为:
前向传播的向量化计算:
输入 X 即 ,是将 m 个样本横向堆叠构成的矩阵,前向传播需要一层一层来迭代计算,所以需要用 for 循环从第 1 层迭代计算到第 L 层,深层神经网络只是比浅层神经网络有更多层的迭代计算。
在上图的神经网络中,除去输入层一共有 5 层,其中 4 个隐藏层,一个输出层。第 1 个隐藏层有 3 个隐藏单元,可以表示为 , 是第 1 个隐藏层的激活函数向量,是一个 3 x 1 的列向量,x 有两个输入特征,所以 x 是 2 x 1 的列向量。在第一层的计算中: ,如果忽略偏置项 , 。 乘以一个 2 x 1 的列向量 x,需要等于一个 3 x 1 的列向量,那么 必须是一个 3 x 2 的矩阵,即 的矩阵。 的结果是一个 3 x 1 的向量, 也搜歼是一个 3 x1 的向量,所以结果 也是一个 3 x 1 的向量。可以发现, 必须是 维的矩阵, 必须是 维的列向量,所以 的维数是 5 x 3,即 , 的维数是 5 x 1,即 x 1,所以在第二层的计算中: ,5 x 3 的矩阵 乘以 3 x 1 的列向量 等于一个 5 x 1 的列向量,再加上一个 5 x 1 的偏置项 ,结果 是一个 5 x 1 的列向量。以此类推, 的维数是 4 x 5, 的维数是 2 x 4, 的维数是 1 x 2。
前面证实了, 必须是 维的矩阵, 必须是 维的列向量。而且,在反向传播中, 和 的维度相同, 和 的维度相同。又因为 ,所以 和 的维度也相同,都是 。
以上是神经网络中单个样本的计算,其中 x 表示单个样本,通常为了加速运算,需要将 m 个样本进行向量化计算,可以用 X 表示 m 个样本,第一个隐藏层的向量化计算公式即为: ,其中 还是 维, X 变为 维, 的结果是 的矩阵, 的维度还是 ,但当一个 的矩阵和 相加时,Python会通过广播将 复制成为 的矩阵,然后两个矩阵逐个元素相加。所以 的维度变为 ,即 3 x m。 表示每一个单独的 横向叠加构成的行向量,即 。
单个样本时, 和 的维世凯冲度相同,都是 ,m 个样本时, 和 的维度相同,都是 ,当 等于 0 时, 等于 ,其中 是 x 的输入特征数。反向传播时,dZ、dA 和 Z、A 的维度相同。
从直觉上可以把深度神经网络的前几层当做探测简单的函数,也就是学习一些低层次的简单特征,之后把它们和后几层结合在一起,也就是把简单的特征结合起来,那么总体上就能学习更多复杂的函数,也就是去探测更复杂的东西。可以把深度学习神经网络和人类大脑做类比,人的大脑也是先探测简单的东西,然后组合起来才能探测复杂的物体。
神经网络为何有效的理论来源于电路理论,它和能够用电路元件计算哪些函数有着分不开的联系,根据不同的基本逻辑门(与,或,非),在非正式情况下,这些函数都可以用相对较小(指隐藏单元数量)但很深的神经网络来计算 ,如果用浅层神经网络则需要指数增长的隐藏单元数量才能达到同样的效果。
上图是一个 4 层的神经网络,梯度下降的一个迭代过程即为前向传播和反向传播的计算过程,如下图所示:
在前向传播计算中,从第 1 层开始,第 层的输入为上一层(第 层)的激活函数计算结果 和当前层的参数 ,输出为当前层激活函数计算结果 ,还要缓存 和 以供反向传播使用, 则输入到下一层(第 层),计算过程如下:
向量化计算为:
当计算完所有层的前向传播后,第 L 层的激活函数计算结果 即当前样本的预测值。接下来将进行反向传播计算,从第 L 层开始,第 层的输入为当前层激活函数计算结果的导数值 和当前层的参数 ,输出为上一层(第 层)激活函数计算结果的导数值 ,以及当前层参数的导数值 ,计算过程如下:
首先
由 可知 ,将 da 带入可求得:
向量化计算为:
首先
在每一层中根据梯度下降公式,更新参数:
这就是神经网络中梯度下降一个迭代的计算过程。
神经网络中的参数包括: W 和 b。超参数包括:学习率 ,梯度下降迭代次数(iterations),隐层数(L),隐藏单元数(units),激活函数(activefunction),因为这些参数是在某种程度上决定了参数 W 和 b 的参数,所以叫做超参数。其他超参数包括:momentum,batch size,正则化参数等
可以通过尝试不同的超参数,观察代价函数曲线变化,从而选择表现最好的超参数。
没有。
https://mooc.study.163.com/smartSpec/detail/1001319001.htm
Ⅵ 神经网络(Neural Network)
(1)结构:许多树突(dendrite)用于输入,一个轴突 (axon)用于输出。
(2)特性:兴奋性和传导性。兴奋性是指当信号量超过某个阈值时,细胞体就会被激活,产生电脉冲。传导性是指电脉冲沿着轴突并通过突触传递到其它神经元。
(3)有两种状态的机器:激活时为“是”,不激活时为“否”。神经细胞的状态取决于从其他神经细胞接收到的信号量,以及突触的性质(抑制或加强)。
(1)神经元——不重要
① 神经元是包含权重和偏置项的 函数 :接收数据后,执行一些计算,然后使用激活函数将数据限制在一个范围内(多数情况下)。
② 单个神经元:线性可分的情况下,本质是一条直线, ,这条直线将数据划分为两类。而线性分类器本身就是一个单层神经网络。
③ 神经网络:非线性可分的情况下,神经网络通过多个隐层的方法来实现非线性的函数。
(2)权重/参数/连接(Weight)——最重要
每一个连接上都有一个权重。一个神经网络的训练算法就是让权重的值调整到最佳,以使得整个网络的预测效果最好。
(3)偏置项(Bias Units)——必须
① 如果没有偏置项,所有的函数都会经过原点。
② 正则化偏置会导致欠拟合:若对偏置正则化,会导致激活变得更加简单,偏差就会上升,学习的能力就会下降。
③ 偏置的大小度量了神经元产生激励(激活)的难易程度。
(1)定义:也称为转换函数,是一种将输入 (input) 转成输出 (output) 的函数。
(2)作用:一般直线拟合的精确度要比曲线差很多,引入激活函数能给神经网络 增加一些非线性 的特性。
(3)性质:
① 非线性:导数不是常数,否则就退化成直线。对于一些画一条直线仍然无法分开的问题,非线性可以把直线变弯,就能包罗万象;
② 可微性:当优化方法是基于梯度的时候,处处可导为后向传播算法提供了核心条件;
③ 输出范围:一般限定在[0,1],使得神经元对一些比较大的输入会比较稳定;
④ 非饱和性:饱和就是指,当输入比较大的时候输出几乎没变化,会导致梯度消失;
⑤ 单调性:导数符号不变,输出不会上蹿下跳,让神经网络训练容易收敛。
(1)线性函数 (linear function)—— purelin()
(2)符号函数 (sign function)—— hardlim()
① 如果z值高于阈值,则激活设置为1或yes,神经元将被激活。
② 如果z值低于阈值,则激活设置为0或no,神经元不会被激活。
(3)对率函数 (sigmoid function)—— logsig()
① 优点:光滑S型曲线连续可导,函数阈值有上限。
② 缺点:❶ 函数饱和使梯度消失,两端梯度几乎为0,更新困难,做不深;
❷ 输出不是0中心,将影响梯度下降的运作,收敛异常慢;
❸ 幂运算相对来讲比较耗时
(4)双曲正切函数(hyperbolic tangent function)—— tansig()
① 优点:取值范围0中心化,防止了梯度偏差
② 缺点:梯度消失现象依然存在,但相对于sigmoid函数问题较轻
(5)整流线性单元 ReLU 函数(rectified linear unit)
① 优点:❶ 分段线性函数,它的非线性性很弱,因此网络做得很深;
❷ 由于它的线性、非饱和性, 对于随机梯度下降的收敛有巨大的加速作用;
② 缺点:❶ 当x<0,梯度都变成0,参数无法更新,也导致了数据多样化的丢失;
❷ 输出不是0中心
(6)渗漏型整流线性单元激活函数 Leaky ReLU 函数
① 优点:❶ 是为解决“ReLU死亡”问题的尝试,在计算导数时允许较小的梯度;
❷ 非饱和的公式,不包含指数运算,计算速度快。
② 缺点:❶ 无法避免梯度爆炸问题; (没有体现优于ReLU)
❷ 神经网络不学习 α 值。
(7)指数线性单元 ELU (Exponential Linear Units)
① 优点:❶ 能避免“死亡 ReLU” 问题;
❷ 能得到负值输出,这能帮助网络向正确的方向推动权重和偏置变化;
❸ 在计算梯度时能得到激活,而不是让它们等于 0。
② 缺点:❶ 由于包含指数运算,所以计算时间更长;
❷ 无法避免梯度爆炸问题; (没有体现优于ReLU)
❸ 神经网络不学习 α 值。
(8)Maxout(对 ReLU 和 Leaky ReLU的一般化归纳)
① 优点:❶ 拥有ReLU的所有优点(线性和不饱和)
❷ 没有ReLU的缺点(死亡的ReLU单元)
❸ 可以拟合任意凸函数
② 缺点 :参数数量增加了一倍。难训练,容易过拟合
(9)Swish
① 优点:❶ 在负半轴也有一定的不饱和区,参数的利用率更大
❷ 无上界有下界、平滑、非单调
❸ 在深层模型上的效果优于 ReLU
每个层都包含一定数量的单元(units)。增加层可增加神经网络输出的非线性。
(1)输入层:就是接收原始数据,然后往隐层送
(2)输出层:神经网络的决策输出
(3)隐藏层:神经网络的关键。把前一层的向量变成新的向量,让数据变得线性可分。
(1)结构:仅包含输入层和输出层,直接相连。
(2)作用:仅能表示 线性可分 函数或决策,且一定可以在有限的迭代次数中收敛。
(3)局限:可以建立与门、或门、非门等,但无法建立更为复杂的异或门(XOR),即两个输入相同时输出1,否则输出0。 (“AI winter”)
(1)目的:拟合某个函数 (两层神经网络可以逼近任意连续函数)
(2)结构:包含输入层、隐藏层和输出层 ,由于从输入到输出的过程中不存在与模型自身的反馈连接,因此被称为“前馈”。 (层与层之间全连接)
(3)作用: 非线性 分类、聚类、预测等,通过训练,可以学习到数据中隐含的知识。
(4)局限:计算复杂、计算速度慢、容易陷入局部最优解,通常要将它们与其他网络结合形成新的网络。
(5)前向传播算法(Forward Propagation)
① 方法:从左至右逐级依赖的算法模型,即网络如何根据输入X得到输出Y,最终的输出值和样本值作比较, 计算出误差 。
② 目的:完成了一次正反向传播,就完成了一次神经网络的训练迭代。通过输出层的误差,快速求解对每个ω、b的偏导,利用梯度下降法,使Loss越来越小。
② 局限:为使最终的误差达到最小,要不断修改参数值,但神经网络的每条连接线上都有不同权重参数,修改这些参数变得棘手。
(6)误差反向传播(Back Propagation)
① 原理:梯度下降法求局部极值
② 方法:从后往前,从输出层开始计算 L 对当前层的微分,获得各层的误差信号,此误差信号即作为修正单元权值的依据。计算结束以后,所要的两个参数矩阵的 梯度 就都有了。
③ 局限:如果激活函数是饱和的,带来的缺陷就是系统迭代更新变慢,系统收敛就慢,当然这是可以有办法弥补的,一种方法是使用 交叉熵函数 作为损失函数。
(1)原理:随着网络的层数增加,每一层对于前一层次的抽象表示更深入。在神经网络中,每一层神经元学习到的是前一层神经元值的更抽象的表示。通过抽取更抽象的特征来对事物进行区分,从而获得更好的区分与分类能力。
(2)方法:ReLU函数在训练多层神经网络时,更容易收敛,并且预测性能更好。
(3)优点:① 易于构建,表达能力强,基本单元便可扩展为复杂的非线性函数
② 并行性号,有利于在分布是系统上应用
(4)局限:① 优化算法只能获得局部极值,性能与初始值相关
② 调参理论性缺乏
③ 不可解释,与实际任务关联性模糊
(1)原理:由手工设计卷积核变成自动学习卷积核
(2)卷积(Convolutional layer): 输入与卷积核相乘再累加 (内积、加权叠加)
① 公式:
② 目的:提取输入的不同特征,得到维度很大的 特征图(feature map)
③ 卷积核:需要训练的参数。一般为奇数维,有中心像素点,便于定位卷积核
④ 特点:局部感知、参数变少、权重共享、分层提取
(3)池化(Pooling Layer):用更高层的抽象表达来表示主要特征,又称“降采样”
① 分类: 最大 (出现与否)、平均(保留整体)、随机(避免过拟合)
② 目的:降维,不需要训练参数,得到新的、维度较小的特征
(4)步长(stride):若假设输入大小是n∗n,卷积核的大小是f∗f,步长是s,则最后的feature map的大小为o∗o,其中
(5)填充(zero-padding)
① Full模式:即从卷积核(fileter)和输入刚相交开始做卷积,没有元素的部分做补0操作。
② Valid模式:卷积核和输入完全相交开始做卷积,这种模式不需要补0。
③ Same模式:当卷积核的中心C和输入开始相交时做卷积。没有元素的部分做补0操作。
(7)激活函数:加入非线性特征
(8)全连接层(Fully-connected layer)
如果说卷积层、池化层和激活函数层等是将原始数据映射到隐层特征空间(决定计算速度),全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用(决定参数个数)。
参考:
[1] 神经网络(入门最详细)_ruthy的博客-CSDN博客_神经网络算法入门
[2] 神经网络(容易被忽视的基础知识) - Evan的文章 - 知乎
[3] 人工神经网络——王的机器
[4] 如何简单形象又有趣地讲解神经网络是什么? - 舒小曼的回答 - 知乎
[5] 神经网络15分钟入门!足够通俗易懂了吧 - Mr.括号的文章 - 知乎
[6] 神经网络——最易懂最清晰的一篇文章_illikang的博客-CSDN博客_神经网络
[7] 直觉化深度学习教程——什么是前向传播——CSDN
[8] “反向传播算法”过程及公式推导(超直观好懂的Backpropagation)_aift的专栏-CSDN
[9] 卷积、反卷积、池化、反池化——CSDN
[10] 浙大机器学习课程- bilibili.com
Ⅶ 理解神经网络卷积层、全连接层
https://zhuanlan.hu.com/p/32472241
卷积神经网络,这玩意儿乍一听像是生物和数学再带点计算机技术混合起来的奇怪东西。奇怪归奇怪,不得不说,卷积神经网络是计算机视觉领域最有影响力的创造之一。
2012年是卷积神经网络崛起之年。这一年,Alex Krizhevsky带着卷积神经网络参加了ImageNet竞赛(其重要程度相当于奥运会)并一鸣惊人,将识别错误率从26%降到了15%,。从那开始,很多公司开始使用深度学习作为他们服务的核心。比如,Facebook在他们的自动标记算法中使用了它,Google在照片搜索中使用了,Amazon在商品推荐中使用,Printerst应用于为他们的家庭饲养服务提供个性化定制,而Instagram应用于他们的搜索引擎。
然而,神经网络最开始也是最多的应用领域是图像处理。那我们就挑这块来聊聊,怎样使用卷积神经网络(下面简称CNN)来进行图像分类。
图像分类是指,向机器输入一张图片,然后机器告诉我们这张图片的类别(一只猫,一条狗等等),或者如果它不确定的话,它会告诉我们属于某个类别的可能性(很可能是条狗但是我不太确定)。对我们人类来说,这件事情简单的不能再简单了,从出生起,我们就可以很快地识别周围的物体是什么。当我们看到一个场景,我们总能快速地识别出所有物体,甚至是下意识的,没有经过有意的思考。但这种能力,机器并不具有。所以我们更加要好好珍惜自己的大脑呀! (:зゝ∠)
电脑和人看到的图片并不相同。当我们输入一张图片时,电脑得到的只是一个数组,记录着像素的信息。数组的大小由图像的清晰度和大小决定。假设我们有一张jpg格式的480 480大小的图片,那么表示它的数组便是480 480*3大小的。数组中所有数字都描述了在那个位置处的像素信息,大小在[0,255]之间。
这些数字对我们来说毫无意义,但这是电脑们可以得到的唯一的信息(也足够了)。抽象而简单的说,我们需要一个接受数组为输入,输出一个数组表示属于各个类别概率的模型。
既然问题我们已经搞明白了,现在我们得想想办法解决它。我们想让电脑做的事情是找出不同图片之间的差别,并可以识别狗狗(举个例子)的特征。
我们人类可以通过一些与众不同的特征来识别图片,比如狗狗的爪子和狗有四条腿。同样地,电脑也可以通过识别更低层次的特征(曲线,直线)来进行图像识别。电脑用卷积层识别这些特征,并通过更多层卷积层结合在一起,就可以像人类一样识别出爪子和腿之类的高层次特征,从而完成任务。这正是CNN所做的事情的大概脉络。下面,我们进行更具体的讨论。
在正式开始之前,我们先来聊聊CNN的背景故事。当你第一次听说卷积神经网络的时候,你可能就会联想到一些与神经学或者生物学有关的东西,不得不说,卷积神经网络还真的与他们有某种关系。
CNN的灵感的确来自大脑中的视觉皮层。视觉皮层某些区域中的神经元只对特定视野区域敏感。1962年,在一个Hubel与Wiesel进行的试验( 视频 )中,这一想法被证实并且拓展了。他们发现,一些独立的神经元只有在特定方向的边界在视野中出现时才会兴奋。比如,一些神经元在水平边出现时兴奋,而另一些只有垂直边出现时才会。并且所有这种类型的神经元都在一个柱状组织中,并且被认为有能力产生视觉。
在一个系统中,一些特定的组件发挥特定的作用(视觉皮层中的神经元寻找各自特定的特征)。这一想法应用于很多机器中,并且也是CNN背后的基本原理。 (译者注:作者没有说清楚。类比到CNN中,应是不同的卷积核寻找图像中不同的特征)
回到主题。
更详细的说,CNN的工作流程是这样的:你把一张图片传递给模型,经过一些卷积层,非线性化(激活函数),池化,以及全连层,最后得到结果。就像我们之前所说的那样,输出可以是单独的一个类型,也可以是一组属于不同类型的概率。现在,最不容易的部分来了:理解各个层的作用。
首先,你要搞清楚的是,什么样的数据输入了卷积层。就像我们之前提到的那样,输入是一个32 × 32 × 3(打个比方)的记录像素值的数组。现在,让我来解释卷积层是什么。解释卷积层最好的方法,是想象一个手电筒照在图片的左上角。让我们假设手电筒的光可以招到一个5 × 5的区域。现在,让我们想象这个手电筒照过了图片的所有区域。在机器学习术语中,这样一个手电筒被称为卷积核(或者说过滤器,神经元) (kernel, filter, neuron) 。而它照到的区域被称为感知域 (receptive field) 。卷积核同样也是一个数组(其中的数被称为权重或者参数)。很重要的一点就是卷积核的深度和输入图像的深度是一样的(这保证可它能正常工作),所以这里卷积核的大小是5 × 5 × 3。
现在,让我们拿卷积核的初始位置作为例子,它应该在图像的左上角。当卷积核扫描它的感知域(也就是这张图左上角5 × 5 × 3的区域)的时候,它会将自己保存的权重与图像中的像素值相乘(或者说,矩阵元素各自相乘,注意与矩阵乘法区分),所得的积会相加在一起(在这个位置,卷积核会得到5 × 5 × 3 = 75个积)。现在你得到了一个数字。然而,这个数字只表示了卷积核在图像左上角的情况。现在,我们重复这一过程,让卷积核扫描完整张图片,(下一步应该往右移动一格,再下一步就再往右一格,以此类推),每一个不同的位置都产生了一个数字。当扫描完整张图片以后,你会得到一组新的28 × 28 × 1的数。 (译者注:(32 - 5 + 1) × (32 - 5 + 1) × 1) 。这组数,我们称为激活图或者特征图 (activation map or feature map) 。
如果增加卷积核的数目,比如,我们现在有两个卷积核,那么我们就会得到一个28 × 28 × 2的数组。通过使用更多的卷积核,我们可以更好的保留数据的空间尺寸。
在数学层面上说,这就是卷积层所做的事情。
让我们来谈谈,从更高角度来说,卷积在做什么。每一个卷积核都可以被看做特征识别器。我所说的特征,是指直线、简单的颜色、曲线之类的东西。这些都是所有图片共有的特点。拿一个7 × 7 × 3的卷积核作为例子,它的作用是识别一种曲线。(在这一章节,简单起见,我们忽略卷积核的深度,只考虑第一层的情况)。作为一个曲线识别器,这个卷积核的结构中,曲线区域内的数字更大。(记住,卷积核是一个数组)
现在我们来直观的看看这个。举个例子,假设我们要把这张图片分类。让我们把我们手头的这个卷积核放在图片的左上角。
记住,我们要做的事情是把卷积核中的权重和输入图片中的像素值相乘。
(译者注:图中最下方应是由于很多都是0所以把0略过不写了。)
基本上,如果输入图像中有与卷积核代表的形状很相似的图形,那么所有乘积的和会很大。现在我们来看看,如果我们移动了卷积核呢?
可以看到,得到的值小多了!这是因为感知域中没有与卷积核表示的相一致的形状。还记得吗,卷积层的输出是一张激活图。所以,在单卷积核卷积的简单情况下,假设卷积核是一个曲线识别器,那么所得的激活图会显示出哪些地方最有可能有曲线。在这个例子中,我们所得激活图的左上角的值为6600。这样大的数字表明很有可能这片区域中有一些曲线,从而导致了卷积核的激活 (译者注:也就是产生了很大的数值。) 而激活图中右上角的数值是0,因为那里没有曲线来让卷积核激活(简单来说就是输入图像的那片区域没有曲线)。
但请记住,这只是一个卷积核的情况,只有一个找出向右弯曲的曲线的卷积核。我们可以添加其他卷积核,比如识别向左弯曲的曲线的。卷积核越多,激活图的深度就越深,我们得到的关于输入图像的信息就越多。
在传统的CNN结构中,还会有其他层穿插在卷积层之间。我强烈建议有兴趣的人去阅览并理解他们。但总的来说,他们提供了非线性化,保留了数据的维度,有助于提升网络的稳定度并且抑制过拟合。一个经典的CNN结构是这样的:
网络的最后一层很重要,我们稍后会讲到它。
现在,然我们回头看看我们已经学到了什么。
我们讲到了第一层卷积层的卷积核的目的是识别特征,他们识别像曲线和边这样的低层次特征。但可以想象,如果想预测一个图片的类别,必须让网络有能力识别高层次的特征,例如手、爪子或者耳朵。让我们想想网络第一层的输出是什么。假设我们有5个5 × 5 × 3的卷积核,输入图像是32 × 32 × 3的,那么我们会得到一个28 × 28 × 5的数组。来到第二层卷积层,第一层的输出便成了第二层的输入。这有些难以可视化。第一层的输入是原始图片,可第二层的输入只是第一层产生的激活图,激活图的每一层都表示了低层次特征的出现位置。如果用一些卷积核处理它,得到的会是表示高层次特征出现的激活图。这些特征的类型可能是半圆(曲线和边的组合)或者矩形(四条边的组合)。随着卷积层的增多,到最后,你可能会得到可以识别手写字迹、粉色物体等等的卷积核。
如果,你想知道更多关于可视化卷积核的信息,可以看这篇 研究报告 ,以及这个 视频 。
还有一件事情很有趣,当网络越来越深,卷积核会有越来越大的相对于输入图像的感知域。这意味着他们有能力考虑来自输入图像的更大范围的信息(或者说,他们对一片更大的像素区域负责)。
到目前为止,我们已经识别出了那些高层次的特征吧。网络最后的画龙点睛之笔是全连层。
简单地说,这一层接受输入(来自卷积层,池化层或者激活函数都可以),并输出一个N维向量,其中,N是所有有可能的类别的总数。例如,如果你想写一个识别数字的程序,那么N就是10,因为总共有10个数字。N维向量中的每一个数字都代表了属于某个类别的概率。打个比方,如果你得到了[0 0.1 0.1 0.75 0 0 0 0 0 0.05],这代表着这张图片是1的概率是10%,是2的概率是10%,是3的概率是75%,是9的概率5%(小贴士:你还有其他表示输出的方法,但现在我只拿softmax (译者注:一种常用于分类问题的激活函数) 来展示)。全连层的工作方式是根据上一层的输出(也就是之前提到的可以用来表示特征的激活图)来决定这张图片有可能属于哪个类别。例如,如果程序需要预测哪些图片是狗,那么全连层在接收到一个包含类似于一个爪子和四条腿的激活图时输出一个很大的值。同样的,如果要预测鸟,那么全连层会对含有翅膀和喙的激活图更感兴趣。
基本上,全连层寻找那些最符合特定类别的特征,并且具有相应的权重,来使你可以得到正确的概率。
现在让我们来说说我之前有意没有提到的神经网络的可能是最重要的一个方面。刚刚在你阅读的时候,可能会有一大堆问题想问。第一层卷积层的卷积核们是怎么知道自己该识别边还是曲线的?全连层怎么知道该找哪一种激活图?每一层中的参数是怎么确定的?机器确定参数(或者说权重)的方法叫做反向传播算法。
在讲反向传播之前,我们得回头看看一个神经网络需要什么才能工作。我们出生的时候并不知道一条狗或者一只鸟长什么样。同样的,在CNN开始之前,权重都是随机生成的。卷积核并不知道要找边还是曲线。更深的卷积层也不知道要找爪子还是喙。
等我们慢慢长大了,我们的老师和父母给我们看不同的图片,并且告诉我们那是什么(或者说,他们的类别)。这种输入一幅图像以及这幅图像所属的类别的想法,是CNN训练的基本思路。在细细讲反向传播之前,我们先假设我们有一个包含上千张不同种类的动物以及他们所属类别的训练集。
反向传播可以被分成四个不同的部分。前向传播、损失函数、反向传播和权重更新。
在前向传播的阶段,我们输入一张训练图片,并让它通过整个神经网络。对于第一个输入图像,由于所有权重都是随机生成的,网络的输出很有可能是类似于[.1 .1 .1 .1 .1 .1 .1 .1 .1 .1]的东西,一般来说并不对任一类别有偏好。具有当前权重的网络并没有能力找出低层次的特征并且总结出可能的类别。
下一步,是损失函数部分。注意,我们现在使用的是训练数据。这些数据又有图片又有类别。打个比方,第一张输入的图片是数字“3”。那么它的标签应该是[0 0 0 1 0 0 0 0 0 0]。一个损失函数可以有很多定义的方法,但比较常见的是MSE(均方误差)。被定义为(实际−预测)22(实际−预测)22。
记变量L为损失函数的值。正如你想象的那样,在第一组训练图片输入的时候,损失函数的值可能非常非常高。来直观地看看这个问题。我们想到达CNN的预测与数据标签完全一样的点(这意味着我们的网络预测的很对)。为了到达那里,我们想要最小化误差。如果把这个看成一个微积分问题,那我们只要找到哪些权重与网络的误差关系最大。
这就相当于数学中的δLδWδLδW (译者注:对L关于W求导) ,其中,W是某个层的权重。现在,我们要对网络进行 反向传播 。这决定了哪些权重与误差的关系最大,并且决定了怎样调整他们来让误差减小。计算完这些导数以后,我们就来到了最后一步: 更新权重 。在这里,我们以与梯度相反的方向调整层中的权重。
学习率是一个有程序员决定的参数。一个很高的学习率意味着权重调整的幅度会很大,这可能会让模型更快的拥有一组优秀的权重。然而,一个太高的学习率可能会让调整的步伐过大,而不能精确地到达最佳点。
前向传播、损失函数、反向传播和更新权重,这四个过程是一次迭代。程序会对每一组训练图片重复这一过程(一组图片通常称为一个batch)。当对每一张图片都训练完之后,很有可能你的网络就已经训练好了,权重已经被调整的很好。
最后,为了验证CNN是否工作的很好,我们还有另一组特殊的数据。我们把这组数据中的图片输入到网络中,得到输出并和标签比较,这样就能看出网络的表现如何了。