‘壹’ 卷积神经网络CNN(Convolutional Neural Network)
上图计算过程为,首先我们可以将右边进行卷积的可以称为过滤器也可以叫做核,覆盖到左边第一个区域,然后分别按照对应位置相乘再相加,3*1+1*1+2*1+0*0+0*0+0*0+1*(-1)+8*(-1)+2*(-1)=-5;
按照上述的计算方法逐步按右移一个步长(步长可以设定为1,2,...等),然后按往下移,逐渐计算相应的值,得出最终的值。
如上图显示,对于第一个图像矩阵对应的图,一边是白色,一边是黑色,那么中间就会存在一个垂直的边缘,我们可以选择一个垂直边缘检测过滤器,如乘法右边的矩阵,那么两者做卷积后得出的图会显示如等号右边的结果矩阵对应的灰度图中间会有一个白色的中间带,也就是检测出来的边缘,那为什么感觉中间边缘带会比较宽呢?而不是很细的一个局域呢?原因是我们输入的图像只有6*6,过于小了,如果我们选择输出更大的尺寸的图,那么结果来说就是相对的一个细的边缘检测带,也就将我们的垂直边缘特征提取出来了。
上述都是人工选择过滤器的参数,随着神经网络的发展我们可以利用反向传播算法来学习过滤器的参数
我们可以将卷积的顾虑器的数值变成一个参数,通过反向传播算法去学习,这样学到的过滤器或者说卷积核就能够识别到很多的特征,而不是依靠手工选择过滤器。
- padding 操作,卷积经常会出现两个问题:
1.每经过一次卷积图像都会缩小,如果卷积层很多的话,后面的图像就缩的很小了;
2.边缘像素利用次数只有一次,很明显少于位于中间的像素,因此会损失边缘图像信息。
为了解决上述的问题,我们可以在图像边缘填充像素,也就是 padding 操作了。
如果我们设置在图像边缘填充的像素数为p,那么经过卷积后的图像是:(n+2p-f+1)x(n+2p-f+1).
如何去选择p呢
通常有两种选择:
-Valid:也就是说不填充操作(no padding),因此如果我们有nxn的图像,fxf的过滤器,那么我们进行卷积nxn fxf=(n-f+1)x(n-f+1)的输出图像;
-Same:也就是填充后是输出图像的大小的与输入相同,同样就有(n+2p)x(n+2p) fxf=nxn,那么可以算,n+2p-f+1=n,得到p=(f-1)/2。
通常对于过滤器的选择有一个默认的准则就是选择过滤器的尺寸是奇数的过滤器。
- 卷积步长设置(Strided COnvolution)
卷积步长也就是我们进行卷积操作时,过滤器每次移动的步长,上面我们介绍的卷积操作步长默认都是1,也就是说每次移动过滤器时我们是向右移动一格,或者向下移动一格。
但是我们可以对卷积进行步长的设置,也就是我们能够对卷积移动的格数进行设置。同样假如我们的图像是nxn,过滤器是fxf,padding设置是p,步长strided设置为s,那么我们进行卷积操作后输出的图像为((n+2p-f)/s+1)x((n+2p-f)/s+1),那么这样就会出现一个问题,如果计算结果不是整数怎么办?
一般是选择向下取整,也就是说明,只有当我们的过滤器完全在图像上能够覆盖时才对它进行计算,这是一个惯例。
实际上上述所述的操作在严格数学角度来说不是卷积的定义,卷积的定义上我们计算的时候在移动步长之前也就是对应元素相乘之前是需要对卷积核或者说我们的过滤器进行镜像操作的,经过镜像操作后再把对应元素进行相乘这才是严格意义上的卷积操作,在数学角度上来说这个操作不算严格的卷积操作应该是属于互相关操作,但是在深度学习领域中,大家按照惯例都省略了反转操作,也把这个操作叫做卷积操作
我们知道彩色图像有RGB三个通道,因此对于输入来说是一个三维的输入,那么对三维输入的图像如何进行卷积操作呢?
例子,如上图我们输入图像假设为6×6×3,3代表有RGB三个通道channel,或者可以叫depth深度,过滤器的选择为3×3×3,其中需要规定的是,顾虑器的channel必须与输入图像的channel相同,长宽没有限制,那么计算过程是,我们将过滤器的立体覆盖在输入,这样对应的27个数对应相乘后相加得到一个数,对应到我们的输出,因此这样的方式进行卷积后我们得出的输出层为4×4×1。如果我们有多个过滤器,比如我们分别用两个过滤器一个提取垂直特征,一个提取水平特征,那么输出图4×4×2 。也就是代表我们输出的深度或者说通道与过滤器的个数是相等的。
第l层的卷积标记如下:
加入我们的过滤器是3×3×3规格的,如果我们设定10个过滤器,那么需要学习的参数总数为每个过滤器为27个参数然后加上一个偏差bias那么每个过滤器的参数为28个,所以十个过滤器的参数为280个。从这里也就可以看出,不管我们输入的图片大小是多大,我们都只需要计算这些参数,因此参数共享也就很容易理解了。
为了缩减模型的大小,提高计算速度,同时提高所提取特征的鲁棒性,我们经常会使用池化层。池化层的计算方式与卷积类似,只是我们需要对每一个通道都进行池化操作。
池化的方式一般有两种:Max Pooling和Average Pooling。
上面为Max Pooling,那么计算方法与卷积类似,首先设定超参数比如过滤器的大小与步长,然后覆盖到对应格子上面,用最大值取代其值作为输出的结果,例如上图为过滤器选择2×2,步长选择为2,因此输出就是2×2的维度,每个输出格子都是过滤器对应维度上输入的最大值。如果为平均池化,那么就是选择其间的平均值作为输出的值。
因此从上面的过程我们看到,通过池化操作能够缩小模型,同时能让特征值更加明显,也就提高了提取特征的鲁棒性。
‘贰’ 描述计算机视觉问题中卷积神经网络(CNN)的基本概念,并描述CNN如何实现这些概念。
摘要 你好,卷积是CNN的核心,是用卷积核扫描图像,得到相应的特征。卷积核可以理解成过滤器(或图像扫描器、特征扫描器、局部感受野)。这里先不涉及到卷积的具体操作,只介绍卷积的简单概念。在BPNN中,前后层神经元的连接是“全连接”,即每个神经元都与前一层所有神经元相连,而卷积是每个神经元只与上一层的一部分神经元相连希望我的回答能帮到你
‘叁’ 人工神经网络概念梳理与实例演示
人工神经网络概念梳理与实例演示
神经网络是一种模仿生物神经元的机器学习模型,数据从输入层进入并流经激活阈值的多个节点。
递归性神经网络一种能够对之前输入数据进行内部存储记忆的神经网络,所以他们能够学习到数据流中的时间依赖结构。
如今机器学习已经被应用到很多的产品中去了,例如,siri、Google Now等智能助手,推荐引擎——亚马逊网站用于推荐商品的推荐引擎,Google和Facebook使用的广告排名系统。最近,深度学习的一些进步将机器学习带入公众视野:AlphaGo 打败围棋大师李世石事件以及一些图片识别和机器翻译等新产品的出现。
在这部分中,我们将介绍一些强大并被普遍使用的机器学习技术。这当然包括一些深度学习以及一些满足现代业务需求传统方法。读完这一系列的文章之后,你就掌握了必要的知识,便可以将具体的机器学习实验应用到你所在的领域当中。
随着深层神经网络的精度的提高,语音和图像识别技术的应用吸引了大众的注意力,关于AI和深度学习的研究也变得更加普遍了。但是怎么能够让它进一步扩大影响力,更受欢迎仍然是一个问题。这篇文章的主要内容是:简述前馈神经网络和递归神经网络、怎样搭建一个递归神经网络对时间系列数据进行异常检测。为了让我们的讨论更加具体化,我们将演示一下怎么用Deeplearning4j搭建神经网络。
一、什么是神经网络?
人工神经网络算法的最初构思是模仿生物神经元。但是这个类比很不可靠。人工神经网络的每一个特征都是对生物神经元的一种折射:每一个节点与激活阈值、触发的连接。
连接人工神经元系统建立起来之后,我们就能够对这些系统进行训练,从而让他们学习到数据中的一些模式,学到之后就能执行回归、分类、聚类、预测等功能。
人工神经网络可以看作是计算节点的集合。数据通过这些节点进入神经网络的输入层,再通过神经网络的隐藏层直到关于数据的一个结论或者结果出现,这个过程才会停止。神经网络产出的结果会跟预期的结果进行比较,神经网络得出的结果与正确结果的不同点会被用来更正神经网络节点的激活阈值。随着这个过程的不断重复,神经网络的输出结果就会无限靠近预期结果。
二、训练过程
在搭建一个神经网络系统之前,你必须先了解训练的过程以及网络输出结果是怎么产生的。然而我们并不想过度深入的了解这些方程式,下面是一个简短的介绍。
网络的输入节点收到一个数值数组(或许是叫做张量多维度数组)就代表输入数据。例如, 图像中的每个像素可以表示为一个标量,然后将像素传递给一个节点。输入数据将会与神经网络的参数相乘,这个输入数据被扩大还是减小取决于它的重要性,换句话说,取决于这个像素就不会影响神经网络关于整个输入数据的结论。
起初这些参数都是随机的,也就是说神经网络在建立初期根本就不了解数据的结构。每个节点的激活函数决定了每个输入节点的输出结果。所以每个节点是否能够被激活取决于它是否接受到足够的刺激强度,即是否输入数据和参数的结果超出了激活阈值的界限。
在所谓的密集或完全连接层中,每个节点的输出值都会传递给后续层的节点,在通过所有隐藏层后最终到达输出层,也就是产生输入结果的地方。在输出层, 神经网络得到的最终结论将会跟预期结论进行比较(例如,图片中的这些像素代表一只猫还是狗?)。神经网络猜测的结果与正确结果的计算误差都会被纳入到一个测试集中,神经网络又会利用这些计算误差来不断更新参数,以此来改变图片中不同像素的重要程度。整个过程的目的就是降低输出结果与预期结果的误差,正确地标注出这个图像到底是不是一条狗。
深度学习是一个复杂的过程,由于大量的矩阵系数需要被修改所以它就涉及到矩阵代数、衍生品、概率和密集的硬件使用问题,但是用户不需要全部了解这些复杂性。
但是,你也应该知道一些基本参数,这将帮助你理解神经网络函数。这其中包括激活函数、优化算法和目标函数(也称为损失、成本或误差函数)。
激活函数决定了信号是否以及在多大程度上应该被发送到连接节点。阶梯函数是最常用的激活函数, 如果其输入小于某个阈值就是0,如果其输入大于阈值就是1。节点都会通过阶梯激活函数向连接节点发送一个0或1。优化算法决定了神经网络怎么样学习,以及测试完误差后,权重怎么样被更准确地调整。最常见的优化算法是随机梯度下降法。最后, 成本函数常用来衡量误差,通过对比一个给定训练样本中得出的结果与预期结果的不同来评定神经网络的执行效果。
Keras、Deeplearning4j 等开源框架让创建神经网络变得简单。创建神经网络结构时,需要考虑的是怎样将你的数据类型匹配到一个已知的被解决的问题,并且根据你的实际需求来修改现有结构。
三、神经网络的类型以及应用
神经网络已经被了解和应用了数十年了,但是最近的一些技术趋势才使得深度神经网络变得更加高效。
GPUs使得矩阵操作速度更快;分布式计算结构让计算能力大大增强;多个超参数的组合也让迭代的速度提升。所有这些都让训练的速度大大加快,迅速找到适合的结构。
随着更大数据集的产生,类似于ImageNet 的大型高质量的标签数据集应运而生。机器学习算法训练的数据越大,那么它的准确性就会越高。
最后,随着我们理解能力以及神经网络算法的不断提升,神经网络的准确性在语音识别、机器翻译以及一些机器感知和面向目标的一些任务等方面不断刷新记录。
尽管神经网络架构非常的大,但是主要用到的神经网络种类也就是下面的几种。
3.1前馈神经网络
前馈神经网络包括一个输入层、一个输出层以及一个或多个的隐藏层。前馈神经网络可以做出很好的通用逼近器,并且能够被用来创建通用模型。
这种类型的神经网络可用于分类和回归。例如,当使用前馈网络进行分类时,输出层神经元的个数等于类的数量。从概念上讲, 激活了的输出神经元决定了神经网络所预测的类。更准确地说, 每个输出神经元返回一个记录与分类相匹配的概率数,其中概率最高的分类将被选为模型的输出分类。
前馈神经网络的优势是简单易用,与其他类型的神经网络相比更简单,并且有一大堆的应用实例。
3.2卷积神经网络
卷积神经网络和前馈神经网络是非常相似的,至少是数据的传输方式类似。他们结构大致上是模仿了视觉皮层。卷积神经网络通过许多的过滤器。这些过滤器主要集中在一个图像子集、补丁、图块的特征识别上。每一个过滤器都在寻找不同模式的视觉数据,例如,有的可能是找水平线,有的是找对角线,有的是找垂直的。这些线条都被看作是特征,当过滤器经过图像时,他们就会构造出特征图谱来定位各类线是出现在图像的哪些地方。图像中的不同物体,像猫、747s、榨汁机等都会有不同的图像特征,这些图像特征就能使图像完成分类。卷积神经网络在图像识别和语音识别方面是非常的有效的。
卷积神经网络与前馈神经网络在图像识别方面的异同比较。虽然这两种网络类型都能够进行图像识别,但是方式却不同。卷积神经网络是通过识别图像的重叠部分,然后学习识别不同部分的特征进行训练;然而,前馈神经网络是在整张图片上进行训练。前馈神经网络总是在图片的某一特殊部分或者方向进行训练,所以当图片的特征出现在其他地方时就不会被识别到,然而卷积神经网络却能够很好的避免这一点。
卷积神经网络主要是用于图像、视频、语音、声音识别以及无人驾驶的任务。尽管这篇文章主要是讨论递归神经网络的,但是卷积神经网络在图像识别方面也是非常有效的,所以很有必要了解。
3.3递归神经网络
与前馈神经网络不同的是,递归神经网络的隐藏层的节点里有内部记忆存储功能,随着输入数据的改变而内部记忆内容不断被更新。递归神经网络的结论都是基于当前的输入和之前存储的数据而得出的。递归神经网络能够充分利用这种内部记忆存储状态处理任意序列的数据,例如时间序列。
递归神经网络经常用于手写识别、语音识别、日志分析、欺诈检测和网络安全。
递归神经网络是处理时间维度数据集的最好方法,它可以处理以下数据:网络日志和服务器活动、硬件或者是医疗设备的传感器数据、金融交易、电话记录。想要追踪数据在不同阶段的依赖和关联关系需要你了解当前和之前的一些数据状态。尽管我们通过前馈神经网络也可以获取事件,随着时间的推移移动到另外一个事件,这将使我们限制在对事件的依赖中,所以这种方式很不灵活。
追踪在时间维度上有长期依赖的数据的更好方法是用内存来储存重要事件,以使近期事件能够被理解和分类。递归神经网络最好的一点就是在它的隐藏层里面有“内存”可以学习到时间依赖特征的重要性。
接下来我们将讨论递归神经网络在字符生成器和网络异常检测中的应用。递归神经网络可以检测出不同时间段的依赖特征的能力使得它可以进行时间序列数据的异常检测。
递归神经网络的应用
网络上有很多使用RNNs生成文本的例子,递归神经网络经过语料库的训练之后,只要输入一个字符,就可以预测下一个字符。下面让我们通过一些实用例子发现更多RNNs的特征。
应用一、RNNs用于字符生成
递归神经网络经过训练之后可以把英文字符当做成一系列的时间依赖事件。经过训练后它会学习到一个字符经常跟着另外一个字符(“e”经常跟在“h”后面,像在“the、he、she”中)。由于它能预测下一个字符是什么,所以它能有效地减少文本的输入错误。
Java是个很有趣的例子,因为它的结构包括很多嵌套结构,有一个开的圆括号必然后面就会有一个闭的,花括号也是同理。他们之间的依赖关系并不会在位置上表现的很明显,因为多个事件之间的关系不是靠所在位置的距离确定的。但是就算是不明确告诉递归神经网络Java中各个事件的依赖关系,它也能自己学习了解到。
在异常检测当中,我们要求神经网络能够检测出数据中相似、隐藏的或许是并不明显的模式。就像是一个字符生成器在充分地了解数据的结构后就会生成一个数据的拟像,递归神经网络的异常检测就是在其充分了解数据结构后来判断输入的数据是不是正常。
字符生成的例子表明递归神经网络有在不同时间范围内学习到时间依赖关系的能力,它的这种能力还可以用来检测网络活动日志的异常。
异常检测能够使文本中的语法错误浮出水面,这是因为我们所写的东西是由语法结构所决定的。同理,网络行为也是有结构的,它也有一个能够被学习的可预测模式。经过在正常网络活动中训练的递归神经网络可以监测到入侵行为,因为这些入侵行为的出现就像是一个句子没有标点符号一样异常。
应用二、一个网络异常检测项目的示例
假设我们想要了解的网络异常检测就是能够得到硬件故障、应用程序失败、以及入侵的一些信息。
模型将会向我们展示什么呢?
随着大量的网络活动日志被输入到递归神经网络中去,神经网络就能学习到正常的网络活动应该是什么样子的。当这个被训练的网络被输入新的数据时,它就能偶判断出哪些是正常的活动,哪些是被期待的,哪些是异常的。
训练一个神经网络来识别预期行为是有好处的,因为异常数据不多,或者是不能够准确的将异常行为进行分类。我们在正常的数据里进行训练,它就能够在未来的某个时间点提醒我们非正常活动的出现。
说句题外话,训练的神经网络并不一定非得识别到特定事情发生的特定时间点(例如,它不知道那个特殊的日子就是周日),但是它一定会发现一些值得我们注意的一些更明显的时间模式和一些可能并不明显的事件之间的联系。
我们将概述一下怎么用 Deeplearning4j(一个在JVM上被广泛应用的深度学习开源数据库)来解决这个问题。Deeplearning4j在模型开发过程中提供了很多有用的工具:DataVec是一款为ETL(提取-转化-加载)任务准备模型训练数据的集成工具。正如Sqoop为Hadoop加载数据,DataVec将数据进行清洗、预处理、规范化与标准化之后将数据加载到神经网络。这跟Trifacta’s Wrangler也相似,只不过它更关注二进制数据。
开始阶段
第一阶段包括典型的大数据任务和ETL:我们需要收集、移动、储存、准备、规范化、矢量话日志。时间跨度的长短是必须被规定好的。数据的转化需要花费一些功夫,这是由于JSON日志、文本日志、还有一些非连续标注模式都必须被识别并且转化为数值数组。DataVec能够帮助进行转化和规范化数据。在开发机器学习训练模型时,数据需要分为训练集和测试集。
训练神经网络
神经网络的初始训练需要在训练数据集中进行。
在第一次训练的时候,你需要调整一些超参数以使模型能够实现在数据中学习。这个过程需要控制在合理的时间内。关于超参数我们将在之后进行讨论。在模型训练的过程中,你应该以降低错误为目标。
但是这可能会出现神经网络模型过度拟合的风险。有过度拟合现象出现的模型往往会在训练集中的很高的分数,但是在遇到新的数据时就会得出错误结论。用机器学习的语言来说就是它不够通用化。Deeplearning4J提供正则化的工具和“过早停止”来避免训练过程中的过度拟合。
神经网络的训练是最花费时间和耗费硬件的一步。在GPUs上训练能够有效的减少训练时间,尤其是做图像识别的时候。但是额外的硬件设施就带来多余的花销,所以你的深度学习的框架必须能够有效的利用硬件设施。Azure和亚马逊等云服务提供了基于GPU的实例,神经网络还可以在异构集群上进行训练。
创建模型
Deeplearning4J提供ModelSerializer来保存训练模型。训练模型可以被保存或者是在之后的训练中被使用或更新。
在执行异常检测的过程中,日志文件的格式需要与训练模型一致,基于神经网络的输出结果,你将会得到是否当前的活动符合正常网络行为预期的结论。
代码示例
递归神经网络的结构应该是这样子的:
MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder(
.seed(123)
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT).iterations(1)
.weightInit(WeightInit.XAVIER)
.updater(Updater.NESTEROVS).momentum(0.9)
.learningRate(0.005)
.gradientNormalization(GradientNormalization.ClipElementWiseAbsoluteValue)
.(0.5)
.list()
.layer(0, new GravesLSTM.Builder().activation("tanh").nIn(1).nOut(10).build())
.layer(1, new RnnOutputLayer.Builder(LossFunctions.LossFunction.MCXENT)
.activation("softmax").nIn(10).nOut(numLabelClasses).build())
.pretrain(false).backprop(true).build();
MultiLayerNetwork net = new MultiLayerNetwork(conf);
net.init();
下面解释一下几行重要的代码:
.seed(123)
随机设置一个种子值对神经网络的权值进行初始化,以此获得一个有复验性的结果。系数通常都是被随机的初始化的,以使我们在调整其他超参数时仍获得一致的结果。我们需要设定一个种子值,让我们在调整和测试的时候能够用这个随机的权值。
.optimizationAlgo(OptimizationAlgorithm.STOCHASTIC_GRADIENT_DESCENT).iterations(1)
决定使用哪个最优算法(在这个例子中是随机梯度下降法)来调整权值以提高误差分数。你可能不需要对这个进行修改。
.learningRate(0.005)
当我们使用随机梯度下降法的时候,误差梯度就被计算出来了。在我们试图将误差值减到最小的过程中,权值也随之变化。SGD给我们一个让误差更小的方向,这个学习效率就决定了我们该在这个方向上迈多大的梯度。如果学习效率太高,你可能是超过了误差最小值;如果太低,你的训练可能将会永远进行。这是一个你需要调整的超参数。
‘肆’ 神经网络异常检测方法和机器学习异常检测方法对于入侵检测的应用
神经网络异常检测方法神经网络入侵检测方法是通过训练神经网络连续的信息单元来进行异常检测,信息单元指的是命令。网络的输入为用户当前输入的命令和已执行过的W个命令;用户执行过的命令被神经网络用来预测用户输入的下一个命令,如下图。若神经网络被训练成预测用户输入命令的序列集合,则神经网络就构成用户的轮郭框架。当用这个神经网络预测不出某用户正确的后继命令,即在某种程度上表明了用户行为与其轮廓框架的偏离,这时表明有异常事件发生,以此就能作异常入侵检测。
上面式子用来分类识别,检测异常序列。实验结果表明这种方法检测迅速,而且误警率底。然而,此方法对于用户动态行为变化以及单独异常检测还有待改善。复杂的相似度量和先验知识加入到检测中可能会提高系统的准确性,但需要做进一步工作。
‘伍’ matlab卷积神经网络运行有错误
错误原因是cnnsetup函数找不到。
1. 请将程序文件夹至于不含空格和中文的路径下,路径越简单越好,比如D:works这种
2. 请在出错语句前加入一行:
whichcnnsetup;ls;
然后贴出执行结果,以便诊断出错原因。
‘陆’ 卷积神经网络为什么具有扭曲和旋转不变性
除非是做了数据增强,要不然卷积神经网络几乎不具有扭曲和旋转不变性
能稍微起点作用的max_polling,但是也只有小范围的扭曲和旋转不变性。
‘柒’ 在tensorflow训练卷积神经网络,训练一半出现乱码是什么情况
具体得看少到什么程度了
扭曲变形确实能提高一些样本数据数量,但数据太少的话,不如直接用线性分类器或者SVM
‘捌’ 卷积神经网络中用1*1 卷积有什么作用或者好处
pooling理论在于,图像中相邻位置的像素是相关的。对一幅图像每隔一行采样,得到的结果依然能看。经过一层卷积以后,输入的图像尺寸变化不大,只是缩小了卷积核-1。根据相邻数据的相关性,在每个nxn区域内,一般2x2,用一个数代表原来的4个数
‘玖’ PART 4 W1 卷积神经网络介绍
一个是图像分类:如猫脸识别等;一个是目标检测:如无人驾驶技术中的各种交通信号检测技术
1. 卷积操作及过滤器/卷积核的概念
如上图所示:最左侧矩阵是一个灰度图像,中间是一个3*3的小矩阵,称为“卷积核”或“过滤器”。
卷积:先把卷积核放到灰度图像左上角(绿色框),盖住灰度图像上一个3*3的矩阵区域,然后9对对应的元素相乘,然后求和(得到0),然后把卷积核逐渐移动一行一行的“扫描”,最终得到最右侧矩阵。上述操作叫做“卷积”,最右侧矩阵是卷积的输出。
2. 垂直边缘检测
仍以上图为例,可以看到3*3的卷积核具体的数值构成为“左边一列1,中间一列0,右边一列-1”,这种卷积核在“扫描”灰度图像时,可以检测到灰度图像的垂直边缘。分析如下:
1)假设正在扫描的灰度区域没有垂直边缘,意味着区域内的值在左右方向上分布差不多,与卷积核做完运算后,左边的乘1,右边的乘-1,相加正好有一定的抵消作用,其实计算出来的结果会接近0。即:卷积结果接近0代表没有边缘。
2)有垂直边缘分为两种情况:目标区域“左边值较大,右边值较小” 或“左边值较小,右边值较大”。前一种情况在卷积操作后会得到一个较大的正值,后一种情况卷积操作后会得到一个较大的负值。
可以看出,较大的正值代表着目标区域的变化趋势与卷积核相同,即检测到的是与卷积核相同的边缘,而较大的负值代表目标区域的变化趋势与卷积核相反,即检测到的是与卷积核相反的边缘。
3. 卷积应用在卷积神经网络中
卷积操作如何应用于神经网络中?简言之,卷积核本身就是网络要学习的参数。如上图所示,我们并不是事先设定好要检测垂直边缘或水平边缘或其它什么边缘,而是要网络去学习要检测什么东西。
1. padding的原因
在上节展示的卷积操作中,可以看出,假设输入图像的大小为n*n,而卷积核的大小为f*f,那么卷积核从输入图像的左上角扫描到右下角,最终得到的结果大小为(n-f+1)*(n-f+1),意味着如果一次次进行卷积,那么结果的尺寸会越来越小
另外,显然输入图像边缘的像素被使用的较少(最边缘的像素仅被使用一次),这显然会造成信息的丢失。
2. 如何进行padding
非常简单:把输入图像的四周补充p = (f-1)/2 圈的0,这样输入的图像尺寸变成了(n+2p)*(n+2p),因此卷积后的大小变成了(n+2p -f + 1)*(n+2p -f + 1)=n*n,即与原始的图像有了相同的大小,且原始图像边缘的像素也被较多的利用到。
3. 几点补充
(1)卷积核的尺寸设置为 奇数 :因为① 这样(f-1)/2就恰好是整数了,方便进行padding,② 有中心像素,便于表征卷积核的位置,等。
(2)根据是否进行padding,分为 普通卷积(valid) 和 同尺寸卷积(same)
1. 步长概念
在上文中讲到卷积,即使用一个卷积核对输入图像进行“扫描”并进行相应计算时,提到这个“扫描”是逐个像素逐个像素的迈进的。但是,并不一定非得这样,也可以每次跨越两个或更多个像素,这就是“步长”的概念,一般用s表示
2. 卷积结果尺寸与步长的关系
前文提到,若输入图像尺寸为n*n,卷积核尺寸为f*f,则卷积结果尺寸为(n+f-1)*(n+f-1),若算上padding操作,则结果为(n+2p -f + 1)*(n+2p -f + 1)。这是在步长s=1的前提下成立。若步长不为1,则结果为floor((n+2p-f)/s+1)**2
3. 其它:数学中的卷积和神经网络中的卷积
需要说明的是,神经网络中所说的卷积和数学中说的卷积不是一回事,但数学中的卷积是啥就不追究了。
神经网络中的卷积操作,在数学的描述上,更像是一种“交叉相关性”的计算,可以看出,若目标区域与卷积核有类似的分布,则会计算出较大的正值(正相关),若有相反的分布,则会计算出较大的负值(负相关),若没什么关系,则会计算出接近0的值(不相关)。卷积操作的确很像一种相关性的计算。
1. RGB图像的数学构成
灰度图像是一个n*n的二维矩阵,彩色图像则是n*n*3 的三维矩阵,最外围的三个维度分别代表了RGB三原色的值,其中数字“3”在卷积神经网络中被称为通道数或信道数
2. 对RGB图像进行卷积
在对灰度图像进行卷积时,使用的是f*f的二维卷积核。在对RGB图像进行卷积时,则卷积核的维度也+1,变成了f*f*3。一次卷积的结果仍然是把所有的值加起来输出一个值。即: 一个三维的图像,和一个三维的卷积核,在进行完卷积操作后,输出的是一个二维的矩阵(如上图) 。
3. 当使用多个卷积核时的输出
如上图所示,可以使用多个卷积核(一个亮黄色,一个屎黄色)。根据前文描述,一个立体的卷积核在一个立体的矩阵上扫描完,结果是一个二维的。但当使用多个卷积核时,则输出了多个二维矩阵,这些二维矩阵沿着第三个维度排列到一起,使得结果重新变成了三维。此时,第三个维度的尺寸,反应的是卷积核数,也就是说 卷积核数就是信道数 。直观理解,每一个卷积核代表着检测了某一种特征,多个卷积核就是同时检测了多种特征,传递了多种信息。
1. 一个卷积层的数据的基本流
如上图所示,由于卷积核本身就是一堆待学参数w,所以卷积操作本质还是“加权求和”,之后会加入偏置值,然后进行非线性变换,然后输出(到下一层),可见还是那一套。
需要提一下的是,卷积的输入不一定是原始图像构成的矩阵,还有可能是上一个卷积的结果。原始图像是彩色的,有多个通道。卷积时可以用多个卷积核,最终产生的结果也是立体的。因此原始的输入与中间卷积层的输出,在数学形式上是统一的。因此可以“输入->卷积层->卷积层->...”这样操作。
2. 卷积层的参数规模
一个卷积层总的参数规模(包括w,不包括b)为: ,即:卷积核的大小的平方*上层输出的通道数)*本层所用的卷积核数。与上层输入的大小无关(但与通道数有关)
3. 一个卷积层涉及到的超参
卷积核的大小、是否padding、步长、卷积核数。
1. 一个示例
上图为一个简单的卷积神经网络示例: 一层一层的卷积,最后把所有的元素展开成一个一维向量,然后加一个全连接层。
2. 注意以下几点:
1⃣️ 实际上CNN会有卷积层、池化层、全连接层,而非仅有卷积和全连接;
2⃣️ 从数据的构成形式上看,按照网络从前往后的顺序,图片尺寸不断减小,信道数量不断增加。一般遵从这个趋势。
1. 池化
如上图所示,假设输入是一个4*4的矩阵,现在我们把它分割成2*2四个子矩阵(或者说使用一个2*2的核以2为步长扫描矩阵),对四个子区域分别求最大值,最终得到一个值为9、2、6、3的2*2的矩阵输出。这种操作就叫池化,具体为最大值池化。
2. 池化的作用
1⃣️ 一般来说,较大的值往往代表学到了一个重要或典型的特征,把原始输入以某种方式滤除掉一些不重要的值,只保留一些较大的值,相当于 强化了一些重要信息的表达 。2⃣️ 降低图片的尺寸,可以节省空间、加速运算等。
3. 池化的特点
并没有需要学习的参数(w、b之类的),也因此“池化层”一般并不被称为单独的一层。在卷积神经网络中,通常把一个卷积层+一个池化层的组合叫一层。
4. 池化的超参数及经验值
池化层没有要学习的参数,只有核心的两个超参:池化核的大小、池化步长。此外还有池化所用的rece操作:最大或者平均(没有其它选项)。
一般把池化核的大小设置为3或2,步长为2。注意:步长为2意味着把图片减小到原来的一半。
rece操作最常用最大池化,偶尔用平均池化,不会用其它操作。
上图为一个典型的卷积神经网络示例,描述如下:
输入层 :彩色的手写数字图片,数学构成为32*32*3的矩阵,其中3为通道数。
Layer 1-卷积层 :1)使用6个5*5*3的卷积核,以步长为1对输入层进行卷积,输出28*28*6的矩阵,2)然后使用2*2的最大池化,步长为2,最终输出14*14*6的矩阵。其中14为图片尺寸,6为信道数。
Layer2-卷积层 :1)使用16个5*5*3的卷积核以步长1对上层输出进行卷积,输出10*10*16的矩阵,2)然后使用2*2的最大池化,步长为2,最终输出5*5*16的矩阵。
Layer3-全连接层: 把上层输出的5*5*16矩阵展开成1*400的一维向量,以120*400的权重矩阵送入本层120个神经元,激活后输出。
Layer4-全连接层: 120->84,激活后输出
输出层 :84 -> 10,然后softmax后输出。
1. 参数少
假如原始图片尺寸为100*100*3,假设使用全连接,即使第二层仅用100个神经元,那也已经产生了100*100*3*100 = 300w个参数,难以想象。
假设使用卷积层,使用10个10*10*3的卷积核,那就是只有3000个参数,而能输出的矩阵规模是91*91*10=81000
2. 参数少的原因
1)稀疏连接:卷积核扫描矩阵产生输出,这个过程就从“神经元连接”的角度看,输入的左上角只连着输出的左上角,右上角只连右上角,而非“全连接”,参数就会少很多。2)参数共享:这么稀疏的连接,还是使用了同一套参数,进一步减少了参数的量。
3. 参数共享的其它好处
如果图片上有一只猫,那么不管这个猫在图片的什么位置,都不改变“这是一张猫的照片”。使用参数共享时,相当于用同样的特征提取作用到整个图片的各个区域,适应平移不变性,增强鲁棒性。
‘拾’ 如何利用卷积神经网络提取图像特征
卷积神经网络有以下几种应用可供研究: 1、基于卷积网络的形状识别 物体的形状是人的视觉系统分析和识别物体的基础,几何形状是物体的本质特征的表现,并具有平移、缩放和旋转不变等特点,所以在模式识别领域,对于形状的分析和识别具有十分重要的意义,而二维图像作为三维图像的特例以及组成部分,因此二维图像的识别是三维图像识别的基础。 2、基于卷积网络的人脸检测 卷积神经网络与传统的人脸检测方法不同,它是通过直接作用于输入样本,用样本来训练网络并最终实现检测任务的。它是非参数型的人脸检测方法,可以省去传统方法中建模、参数估计以及参数检验、重建模型等的一系列复杂过程。本文针对图像中任意大小、位置、姿势、方向、肤色、面部表情和光照条件的人脸。 3、文字识别系统 在经典的模式识别中,一般是事先提取特征。提取诸多特征后,要对这些特征进行相关性分析,找到最能代表字符的特征,去掉对分类无关和自相关的特征。然而,这些特征的提取太过依赖人的经验和主观意识,提取到的特征的不同对分类性能影响很大,甚至提取的特征的顺序也会影响最后的分类性能。同时,图像预处理的好坏也会影响到提取的特征。