导航:首页 > 网络设置 > 神经网络输入可以有多少通道

神经网络输入可以有多少通道

发布时间：2022-10-29 22:14:49

1. rbf神经网络的输入参数个数有上限么

没有规定说只能有一个输出，输出向量维数也是根据你的输出样本确定的。在RBF网络之前训练，需要给出输入向量X和目标向量T，训练的目的是要求得第一层和第二层之间的权值W1、阀值B1，和第二层与第三层之间的权值W2、阀值B2。整个网络的训练分为两步，第一部是无监督的学习，求W1、B1。第二步是有监督的学习求W2、B2。newrbe（）函数：和newrb（）功能差不多，用于创建一个精确地神经网络，能够基于设计向量快速的无误差的设计一个径向基网络。该函数在创建RBF网络的时候，自动选择隐含层数目，隐藏层的数目等于样本输入向量的数目，使得误差为0。在样本输入向量非常多的情况下，用rbe就不大合适。

2. 卷积神经网络

1、二维互相关运算

二维互相关（cross-correlation）运算的输入是一个二维输入数组和一个二维核（kernel）数组，输出也是一个二维数组，其中核数组通常称为卷积核或过滤器（filter）。卷积核的尺寸通常小于输入数组，卷积核在输入数组上滑动，在每个位置上，卷积核与该位置处的输入子数组按元素相乘并求和，得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子，阴影部分分别是输入的第一个计算区域、核数组以及对应的输出。

2、二维卷积层

卷积层得名于卷积运算，但卷积层中用到的并非卷积运算而是互相关运算。我们将核数组上下翻转、左右翻转，再与输入数组做互相关运算，这一过程就是卷积运算。由于卷积层的核数组是可学习的，所以使用互相关运算与使用卷积运算并无本质区别。

二维卷积层将输入和卷积核做互相关运算，并加上一个标量偏置来得到输出。卷积层的模型参数包括卷积核和标量偏置。

3、特征图与感受野

二维卷积层输出的二维数组可以看作是输入在空间维度（宽和高）上某一级的表征，也叫特征图（feature map）。影响元素x的前向计算的所有可能输入区域（可能大于输入的实际尺寸）叫做x的感受野（receptive field）。

以图1为例，输入中阴影部分的四个元素是输出中阴影部分元素的感受野。我们将图中形状为2×2的输出记为Y，将Y与另一个形状为2×2的核数组做互相关运算，输出单个元素z。那么，z在Y上的感受野包括Y的全部四个元素，在输入上的感受野包括其中全部9个元素。可见，我们可以通过更深的卷积神经网络使特征图中单个元素的感受野变得更加广阔，从而捕捉输入上更大尺寸的特征。

4、填充和步幅

我们介绍卷积层的两个超参数，即填充和步幅，它们可以对给定形状的输入和卷积核改变输出形状。

4.1 填充（padding）

是指在输入高和宽的两侧填充元素（通常是0元素），图2里我们在原输入高和宽的两侧分别添加了值为0的元素。

如果原输入的高和宽是和，卷积核的高和宽是和，在高的两侧一共填充行，在宽的两侧一共填充列，则输出形状为：

   )

我们在卷积神经网络中使用奇数高宽的核，比如3×3，5×5的卷积核，对于高度（或宽度）为大小为2k+1的核，令步幅为1，在高（或宽）两侧选择大小为k的填充，便可保持输入与输出尺寸相同。

4.2 步幅（stride）

在互相关运算中，卷积核在输入数组上滑动，每次滑动的行数与列数即是步幅（stride）。此前我们使用的步幅都是1，图3展示了在高上步幅为3、在宽上步幅为2的二维互相关运算。

一般来说，当高上步幅为，宽上步幅为时，输出形状为：

如果 ,那么输出形状将简化为：



更进一步，如果输入的高和宽能分别被高和宽上的步幅整除，那么输出形状将是:(nh/sh)×(nw/sw)



当时，我们称填充为p；当时，我们称步幅为s。

5、多输入通道和多输出通道

之前的输入和输出都是二维数组，但真实数据的维度经常更高。例如，彩色图像在高和宽2个维度外还有RGB（红、绿、蓝）3个颜色通道。假设彩色图像的高和宽分别是h和w（像素），那么它可以表示为一个3×h×w的多维数组，我们将大小为3的这一维称为通道（channel）维。

5.1 多输入通道

卷积层的输入可以包含多个通道，图4展示了一个含2个输入通道的二维互相关计算的例子。

5.2 多输出通道

卷积层的输出也可以包含多个通道，设卷积核输入通道数和输出通道数分别为ci和co，高和宽分别为kh和kw。如果希望得到含多个通道的输出，我们可以为每个输出通道分别创建形状为ci×kh×kw的核数组，将它们在输出通道维上连结，卷积核的形状即co×ci×kh×kw。

对于输出通道的卷积核，我们提供这样一种理解，一个ci×kh×kw的核数组可以提取某种局部特征，但是输入可能具有相当丰富的特征，我们需要有多个这样的ci×kh×kw的核数组，不同的核数组提取的是不同的特征。

5.3 1x1卷积层

最后讨论形状为1×1的卷积核，我们通常称这样的卷积运算为1×1卷积，称包含这种卷积核的卷积层为1×1卷积层。图5展示了使用输入通道数为3、输出通道数为2的1×1卷积核的互相关计算。

1×1卷积核可在不改变高宽的情况下，调整通道数。1×1卷积核不识别高和宽维度上相邻元素构成的模式，其主要计算发生在通道维上。假设我们将通道维当作特征维，将高和宽维度上的元素当成数据样本，那么1×1卷积层的作用与全连接层等价。

6、卷积层与全连接层的对比

二维卷积层经常用于处理图像，与此前的全连接层相比，它主要有两个优势：

一是全连接层把图像展平成一个向量，在输入图像上相邻的元素可能因为展平操作不再相邻，网络难以捕捉局部信息。而卷积层的设计，天然地具有提取局部信息的能力。

二是卷积层的参数量更少。不考虑偏置的情况下，一个形状为(ci,co,h,w)的卷积核的参数量是ci×co×h×w，与输入图像的宽高无关。假如一个卷积层的输入和输出形状分别是(c1,h1,w1)和(c2,h2,w2)，如果要用全连接层进行连接，参数数量就是c1×c2×h1×w1×h2×w2。使用卷积层可以以较少的参数数量来处理更大的图像。

X=torch.rand(4,2,3,5)

print(X.shape)

conv2d=nn.Conv2d(in_channels=2,out_channels=3,kernel_size=(3,5),stride=1,padding=(1,2))

Y=conv2d(X)

print('Y.shape: ',Y.shape)

print('weight.shape: ',conv2d.weight.shape)

print('bias.shape: ',conv2d.bias.shape)

输出：

torch.Size([4, 2, 3, 5])

Y.shape: torch.Size([4, 3, 3, 5])

weight.shape: torch.Size([3, 2, 3, 5])

bias.shape: torch.Size([3])

7、池化

7.1 二维池化层

池化层主要用于缓解卷积层对位置的过度敏感性。同卷积层一样，池化层每次对输入数据的一个固定形状窗口（又称池化窗口）中的元素计算输出，池化层直接计算池化窗口内元素的最大值或者平均值，该运算也分别叫做最大池化或平均池化。图6展示了池化窗口形状为2×2的最大池化。

二维平均池化的工作原理与二维最大池化类似，但将最大运算符替换成平均运算符。池化窗口形状为p×q的池化层称为p×q池化层，其中的池化运算叫作p×q池化。

池化层也可以在输入的高和宽两侧填充并调整窗口的移动步幅来改变输出形状。池化层填充和步幅与卷积层填充和步幅的工作机制一样。

在处理多通道输入数据时，池化层对每个输入通道分别池化，但不会像卷积层那样将各通道的结果按通道相加。这意味着池化层的输出通道数与输入通道数相等。

CNN网络中另外一个不可导的环节就是Pooling池化操作，因为Pooling操作使得feature map的尺寸变化，假如做2×2的池化，假设那么第l+1层的feature map有16个梯度，那么第l层就会有64个梯度，这使得梯度无法对位的进行传播下去。其实解决这个问题的思想也很简单，就是把1个像素的梯度传递给4个像素，但是需要保证传递的loss（或者梯度）总和不变。根据这条原则，mean pooling和max pooling的反向传播也是不同的。

7.2 mean pooling

mean pooling的前向传播就是把一个patch中的值求取平均来做pooling，那么反向传播的过程也就是把某个元素的梯度等分为n份分配给前一层，这样就保证池化前后的梯度（残差）之和保持不变，还是比较理解的，图示如下：

mean pooling比较容易让人理解错的地方就是会简单的认为直接把梯度复制N遍之后直接反向传播回去，但是这样会造成loss之和变为原来的N倍，网络是会产生梯度爆炸的。

7.3 max pooling

max pooling也要满足梯度之和不变的原则，max pooling的前向传播是把patch中最大的值传递给后一层，而其他像素的值直接被舍弃掉。那么反向传播也就是把梯度直接传给前一层某一个像素，而其他像素不接受梯度，也就是为0。所以max pooling操作和mean pooling操作不同点在于需要记录下池化操作时到底哪个像素的值是最大，也就是max id。

源码中有一个max_idx_的变量，这个变量就是记录最大值所在位置的，因为在反向传播中要用到，那么假设前向传播和反向传播的过程就如下图所示。

7.4 Pytorch 实现池化层

我们使用Pytorch中的nn.MaxPool2d实现最大池化层，关注以下构造函数参数：

kernel_size – the size of the window to take a max over

stride – the stride of the window. Default value is kernel_size

padding – implicit zero padding to be added on both sides

forward函数的参数为一个四维张量，形状为，返回值也是一个四维张量，形状为，其中N是批量大小，C,H,W分别表示通道数、高度、宽度。

X=torch.arange(32,dtype=torch.float32).view(1,2,4,4)

pool2d=nn.MaxPool2d(kernel_size=3,padding=1,stride=(2,1))

Y=pool2d(X)

print(X)

print(Y)

练习

1、假如你用全连接层处理一张256 \times 256256×256的彩色（RGB）图像，输出包含1000个神经元，在使用偏置的情况下，参数数量是：

答：图像展平后长度为3×256×256，权重参数和偏置参数的数量是3× 256× 256 × 1000 + 1000 =196609000。

2、假如你用全连接层处理一张256×256的彩色（RGB）图像，卷积核的高宽是3×3，输出包含10个通道，在使用偏置的情况下，这个卷积层共有多少个参数：

  答：输入通道数是3，输出通道数是10，所以参数数量是10×3×3×3+10=280。

3、conv2d = nn.Conv2d(in_channels=3, out_channels=4, kernel_size=3, padding=2)，输入一张形状为3×100×100的图像，输出的形状为：

答：输出通道数是4，上下两侧总共填充4行，卷积核高度是3，所以输出的高度是104 - 3 + 1=102104−3+1=102，宽度同理可得。

4、关于卷积层，以下哪种说法是错误的：

A.1×1卷积可以看作是通道维上的全连接

B.某个二维卷积层用于处理形状为3×100×100的输入，则该卷积层无法处理形状为3×256×256的输入

C.卷积层通过填充、步幅、输入通道数、输出通道数等调节输出的形状

D .两个连续的3×3卷积核的感受野与一个5×5卷积核的感受野相同

答：选B，对于高宽维度，只要输入的高宽（填充后的）大于或等于卷积核的高宽即可进行计算。

the first layer is a 3 × 3 convolution, the second is a fully connected layer on top of the 3 × 3 output grid of the first layer (see Figure 1). Sliding this small network over the input activation grid boils down to replacing the 5 × 5 convolution with two layers of 3 × 3 convolution.

我们假设图片是5*5的

我们使用5*5的卷积核对其卷积，步长为1，得到的结果是:(5-5)/1+1=1

然后我们使用2个卷积核为3*3的，这里的两个是指2层：

第一层3*3：

得到的结果是(5-3)/1+1=3

第二层3*3：

得到的结果是(3-3)/1+1=1

所以我们的最终得到结果感受野大小和用5*5的卷积核得到的结果大小是一样的！！！

5、关于池化层，以下哪种说法是错误的：

A.池化层不参与反向传播

B.池化层没有模型参数

C.池化层通常会减小特征图的高和宽

D.池化层的输入和输出具有相同的通道数

答：A

选项1：错误，池化层有参与模型的正向计算，同样也会参与反向传播

选项2：正确，池化层直接对窗口内的元素求最大值或平均值，并没有模型参数参与计算

选项3：正确

选项4：正确

参考文献：

https://www.boyuai.com/

https://blog.csdn.net/qq_21578849/article/details/94667699

https://www.hu.com/question/265791259/answer/298610437

https://blog.csdn.net/zouxiaolv/article/details/97366681

3. 神经网络浅谈

人工智能技术是当前炙手可热的话题，而基于神经网络的深度学习技术更是热点中的热点。去年谷歌的Alpha Go 以4:1大比分的优势战胜韩国的李世石九段，展现了深度学习的强大威力，后续强化版的Alpha Master和无师自通的Alpha Zero更是在表现上完全碾压前者。不论你怎么看，以深度学习为代表的人工智能技术正在塑造未来。

下图为英伟达（NVIDIA）公司近年来的股价情况，该公司的主要产品是“图形处理器”（GPU），而GPU被证明能大大加快神经网络的训练速度，是深度学习必不可少的计算组件。英伟达公司近年来股价的飞涨足以证明当前深度学习的井喷之势。

好，话不多说，下面简要介绍神经网络的基本原理、发展脉络和优势。

神经网络是一种人类由于受到生物神经细胞结构启发而研究出的一种算法体系，是机器学习算法大类中的一种。首先让我们来看人脑神经元细胞：

一个神经元通常具有多个树突，主要用来接受传入信息，而轴突只有一条，轴突尾端有许多轴突末梢，可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接，从而传递信号。

下图是一个经典的神经网络（Artificial Neural Network,ANN）：

乍一看跟传统互联网的拓扑图有点类似，这也是称其为网络的原因，不同的是节点之间通过有向线段连接，并且节点被分成三层。我们称图中的圆圈为神经元，左边三个神经元组成的一列为输入层，中间神经元列为隐藏层,右边神经元列为输出层，神经元之间的箭头为权重。

神经元是计算单元，相当于神经元细胞的细胞核，利用输入的数据进行计算，然后输出，一般由一个线性计算部分和一个非线性计算部分组成；输入层和输出层实现数据的输入输出，相当于细胞的树突和轴突末梢；隐藏层指既不是输入也不是输出的神经元层，一个神经网络可以有很多个隐藏层。

神经网络的关键不是圆圈代表的神经元，而是每条连接线对应的权重。每条连接线对应一个权重，也就是一个参数。权重具体的值需要通过神经网络的训练才能获得。我们实际生活中的学习体现在大脑中就是一系列神经网络回路的建立与强化，多次重复的学习能让回路变得更加粗壮，使得信号的传递速度加快，最后对外表现为“深刻”的记忆。人工神经网络的训练也借鉴于此，如果某种映射关系出现很多次，那么在训练过程中就相应调高其权重。

1943年，心理学家McCulloch和数学家Pitts参考了生物神经元的结构，发表了抽象的神经元模型MP：

符号化后的模型如下：

Sum函数计算各权重与输入乘积的线性组合，是神经元中的线性计算部分，而sgn是取符号函数，当输入大于0时，输出1，反之输出0，是神经元中的非线性部分。向量化后的公式为z=sgn(w^T a)（w^T=(w_1,w_2,w_3)，a=〖(a_1,a_2,a_3)〗^T）。

但是，MP模型中，权重的值都是预先设置的，因此不能学习。该模型虽然简单，并且作用有限，但已经建立了神经网络大厦的地基

1958年，计算科学家Rosenblatt提出了由两层神经元组成(一个输入层，一个输出层)的神经网络。他给它起了一个名字–“感知器”（Perceptron）

感知器是当时首个可以学习的人工神经网络。Rosenblatt现场演示了其学习识别简单图像的过程，在当时引起了轰动，掀起了第一波神经网络的研究热潮。

但感知器只能做简单的线性分类任务。1969年，人工智能领域的巨擘Minsky指出这点，并同时指出感知器对XOR（异或，即两个输入相同时输出0，不同时输出1）这样的简单逻辑都无法解决。所以，明斯基认为神经网络是没有价值的。

随后，神经网络的研究进入低谷，又称 AI Winter 。

Minsky说过单层神经网络无法解决异或问题，但是当增加一个计算层以后，两层神经网络不仅可以解决异或问题，而且具有非常好的非线性分类效果。

下图为两层神经网络（输入层一般不算在内）：

上图中，输出层的输入是上一层的输出。

向量化后的公式为：

注意：

每个神经元节点默认都有偏置变量b，加上偏置变量后的计算公式为：

同时，两层神经网络不再使用sgn函数作为激励函数，而采用平滑的sigmoid函数：

σ(z)=1/(1+e^(-z) )

其图像如下：

理论证明：两层及以上的神经网络可以无限逼近真实的对应函数，从而模拟数据之间的真实关系，这是神经网络强大预测能力的根本。但两层神经网络的计算量太大，当时的计算机的计算能力完全跟不上，直到1986年，Rumelhar和Hinton等人提出了反向传播（Backpropagation，BP）算法，解决了两层神经网络所需要的复杂计算量问题，带动了业界使用两层神经网络研究的热潮。

但好景不长，算法的改进仅使得神经网络风光了几年，然而计算能力不够，局部最优解，调参等一系列问题一直困扰研究人员。90年代中期，由Vapnik等人发明的SVM（Support Vector Machines，支持向量机）算法诞生，很快就在若干个方面体现出了对比神经网络的优势：无需调参；高效；全局最优解。

由于以上原因，SVM迅速打败了神经网络算法成为主流。神经网络的研究再一次进入低谷， AI Winter again 。

多层神经网络一般指两层或两层以上的神经网络（不包括输入层），更多情况下指两层以上的神经网络。

2006年，Hinton提出使用预训练 ”（pre-training）和“微调”(fine-tuning)技术能优化神经网络训练，大幅度减少训练多层神经网络的时间

并且，他给多层神经网络相关的学习方法赋予了一个新名词–“ 深度学习 ”，以此为起点，“深度学习”纪元开始了：）

“深度学习”一方面指神经网络的比较“深”，也就是层数较多；另一方面也可以指神经网络能学到很多深层次的东西。研究发现，在权重参数不变的情况下，增加神经网络的层数，能增强神经网络的表达能力。

但深度学习究竟有多强大呢？没人知道。2012年，Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千类别的一百万张图片进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了近11个百分点，充分证明了多层神经网络识别效果的优越性。

同时，科研人员发现GPU的大规模并行矩阵运算模式完美地契合神经网络训练的需要，在同等情况下，GPU的速度要比CPU快50-200倍，这使得神经网络的训练时间大大减少，最终再一次掀起了神经网络研究的热潮，并且一直持续到现在。

2016年基于深度学习的Alpha Go在围棋比赛中以4:1的大比分优势战胜了李世石，深度学习的威力再一次震惊了世界。

神经网络的发展历史曲折荡漾，既有被捧上神坛的高潮，也有无人问津的低谷，中间经历了数次大起大落，我们姑且称之为“三起三落”吧，其背后则是算法的改进和计算能力的持续发展。

下图展示了神经网络自发明以来的发展情况及一些重大时间节点。

当然，对于神经网络我们也要保持清醒的头脑。由上图，每次神经网络研究的兴盛期持续10年左右，从最近2012年算起，或许10年后的2022年，神经网络的发展将再次遇到瓶颈。

神经网络作为机器学习的一种，其模型训练的目的，就是使得参数尽可能的与真实的模型逼近。理论证明，两层及以上的神经网络可以无限逼近真实的映射函数。因此，给定足够的训练数据和训练时间，总能通过神经网络找到无限逼近真实关系的模型。

具体做法：首先给所有权重参数赋上随机值，然后使用这些随机生成的参数值，来预测训练数据中的样本。假设样本的预测目标为yp ，真实目标为y，定义值loss，计算公式如下：

loss = (yp -y) ^2

这个值称之为损失（loss），我们的目标就是使对所有训练数据的损失和尽可能的小，这就转化为求loss函数极值的问题。

一个常用方法是高等数学中的求导，但由于参数不止一个，求导后计算导数等于0的运算量很大，所以常用梯度下降算法来解决这样的优化问题。梯度是一个向量，由函数的各自变量的偏导数组成。

比如对二元函数 f =(x,y)，则梯度∇f=(∂f/∂x,∂f/∂y)。梯度的方向是函数值上升最快的方向。梯度下降算法每次计算参数在当前的梯度，然后让参数向着梯度的反方向前进一段距离，不断重复，直到梯度接近零时截止。一般这个时候，所有的参数恰好达到使损失函数达到一个最低值的状态。下图为梯度下降的大致运行过程：

在神经网络模型中，由于结构复杂，每次计算梯度的代价很大。因此还需要使用反向传播（Back Propagation）算法。反向传播算法利用了神经网络的结构进行计算，不一次计算所有参数的梯度，而是从后往前。首先计算输出层的梯度，然后是第二个参数矩阵的梯度，接着是中间层的梯度，再然后是第一个参数矩阵的梯度，最后是输入层的梯度。计算结束以后，所要的两个参数矩阵的梯度就都有了。当然，梯度下降只是其中一个优化算法，其他的还有牛顿法、RMSprop等。

确定loss函数的最小值后，我们就确定了整个神经网络的权重，完成神经网络的训练。

在神经网络中一样的参数数量，可以用更深的层次去表达。

由上图，不算上偏置参数的话，共有三层神经元，33个权重参数。

由下图，保持权重参数不变，但增加了两层神经元。

在多层神经网络中，每一层的输入是前一层的输出，相当于在前一层的基础上学习，更深层次的神经网络意味着更深入的表示特征，以及更强的函数模拟能力。更深入的表示特征可以这样理解，随着网络的层数增加，每一层对于前一层次的抽象表示更深入。

如上图，第一个隐藏层学习到“边缘”的特征，第二个隐藏层学习到“边缘”组成的“形状”的特征，第三个隐藏层学习到由“形状”组成的“图案”的特征，最后的隐藏层学习到由“图案”组成的“目标”的特征。通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力。

前面提到，明斯基认为Rosenblatt提出的感知器模型不能处理最简单的“异或”（XOR）非线性问题，所以神经网络的研究没有前途，但当增加一层神经元后，异或问题得到了很好地解决，原因何在？原来从输入层到隐藏层，数据发生了空间变换，坐标系发生了改变，因为矩阵运算本质上就是一种空间变换。

如下图，红色和蓝色的分界线是最终的分类结果，可以看到，该分界线是一条非常平滑的曲线。

但是，改变坐标系后，分界线却表现为直线，如下图：

同时，非线性激励函数的引入使得神经网络对非线性问题的表达能力大大加强。

对于传统的朴素贝叶斯、决策树、支持向量机SVM等分类器，提取特征是一个非常重要的前置工作。在正式训练之前，需要花费大量的时间在数据的清洗上，这样分类器才能清楚地知道数据的维度，要不然基于概率和空间距离的线性分类器是没办法进行工作的。然而在神经网络中，由于巨量的线性分类器的堆叠（并行和串行）以及卷积神经网络的使用，它对噪声的忍耐能力、对多通道数据上投射出来的不同特征偏向的敏感程度会自动重视或忽略，这样我们在处理的时候，就不需要使用太多的技巧用于数据的清洗了。有趣的是，业内大佬常感叹，“你可能知道SVM等机器学习的所有细节，但是效果并不好，而神经网络更像是一个黑盒，很难知道它究竟在做什么，但工作效果却很好”。

人类对机器学习的环节干预越少，就意味着距离人工智能的方向越近。神经网络的这个特性非常有吸引力。

1) 谷歌的TensorFlow开发了一个非常有意思的神经网络入门教程，用户可以非常方便地在网页上更改神经网络的参数，并且能看到实时的学习效率和结果，非常适合初学者掌握神经网络的基本概念及神经网络的原理。网页截图如下：

2) 深度学习领域大佬吴恩达不久前发布的《神经网络和深度学习》MOOC，现在可以在网易云课堂上免费观看了，并且还有中文字幕。

3) 《神经网络于深度学习》（Michael Nielsen着）、《白话深度学习与TensorFlow》也是不错的入门书籍。

4. 神经网络处理数据组有1000个维数需要多少输入节点

这需要看你的实际需求了，一般使用二次型就行，这样的话输入节点1000！个，维度这么大我想应该有很大数据是冗余的，可以先用PCA降低下维度1000维度（通道）有点夸张，还是说只是单维度下，有连续1000个输入作为一组样本

5. CNN网络简介

卷积神经网络简介（Convolutional Neural Networks，简称CNN）

卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络（Convolutional

Neural

Networks-简称CNN）。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工作者对该网络进行了改进。其中，具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”，该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。

一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

1. 神经网络

首先介绍神经网络，这一步的详细可以参考资源1。简要介绍下。神经网络的每个单元如下：

其对应的公式如下：

其中，该单元也可以被称作是Logistic回归模型。当将多个单元组合起来并具有分层结构时，就形成了神经网络模型。下图展示了一个具有一个隐含层的神经网络。

其对应的公式如下：

比较类似的，可以拓展到有2,3,4,5，…个隐含层。

神经网络的训练方法也同Logistic类似，不过由于其多层性，还需要利用链式求导法则对隐含层的节点进行求导，即梯度下降+链式求导法则，专业名称为反向传播。关于训练算法，本文暂不涉及。

2 卷积神经网络

在图像处理中，往往把图像表示为像素的向量，比如一个1000×1000的图像，可以表示为一个1000000的向量。在上一节中提到的神经网络中，如果隐含层数目与输入层一样，即也是1000000时，那么输入层到隐含层的参数数据为1000000×1000000=10^12，这样就太多了，基本没法训练。所以图像处理要想练成神经网络大法，必先减少参数加快速度。就跟辟邪剑谱似的，普通人练得很挫，一旦自宫后内力变强剑法变快，就变的很牛了。

2.1 局部感知

卷积神经网络有两种神器可以降低参数数目，第一种神器叫做局部感知野。一般认为人对外界的认知是从局部到全局的，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想，也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的（即这些神经元只响应某些特定区域的刺激）。如下图所示：左图为全连接，右图为局部连接。

在上右图中，假如每个神经元只和10×10个像素值相连，那么权值数据为1000000×100个参数，减少为原来的千分之一。而那10×10个像素值对应的10×10个参数，其实就相当于卷积操作。

2.2 参数共享

但其实这样的话参数仍然过多，那么就启动第二级神器，即权值共享。在上面的局部连接中，每个神经元都对应100个参数，一共1000000个神经元，如果这1000000个神经元的100个参数都是相等的，那么参数数目就变为100了。

怎么理解权值共享呢？我们可以这100个参数（也就是卷积操作）看成是提取特征的方式，该方式与位置无关。这其中隐含的原理则是：图像的一部分的统计特性与其他部分是一样的。这也意味着我们在这一部分学习的特征也能用在另一部分上，所以对于这个图像上的所有位置，我们都能使用同样的学习特征。

更直观一些，当从一个大尺寸图像中随机选取一小块，比如说 8×8 作为样本，并且从这个小块样本中学习到了一些特征，这时我们可以把从这个

8×8 样本中学习到的特征作为探测器，应用到这个图像的任意地方中去。特别是，我们可以用从 8×8

样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。

如下图所示，展示了一个33的卷积核在55的图像上做卷积的过程。每个卷积都是一种特征提取方式，就像一个筛子，将图像中符合条件（激活值越大越符合条件）的部分筛选出来。

2.3 多卷积核

上面所述只有100个参数时，表明只有1个100*100的卷积核，显然，特征提取是不充分的，我们可以添加多个卷积核，比如32个卷积核，可以学习32种特征。在有多个卷积核时，如下图所示：

上图右，不同颜色表明不同的卷积核。每个卷积核都会将图像生成为另一幅图像。比如两个卷积核就可以将生成两幅图像，这两幅图像可以看做是一张图像的不同的通道。如下图所示，下图有个小错误，即将w1改为w0，w2改为w1即可。下文中仍以w1和w2称呼它们。

下图展示了在四个通道上的卷积操作，有两个卷积核，生成两个通道。其中需要注意的是，四个通道上每个通道对应一个卷积核，先将w2忽略，只看w1，那么在w1的某位置（i,j）处的值，是由四个通道上（i,j）处的卷积结果相加然后再取激活函数值得到的。

所以，在上图由4个通道卷积得到2个通道的过程中，参数的数目为4×2×2×2个，其中4表示4个通道，第一个2表示生成2个通道，最后的2×2表示卷积核大小。

2.4 Down-pooling

在通过卷积获得了特征 (features)

之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如 softmax

分类器，但这样做面临计算量的挑战。例如：对于一个 96X96

像素的图像，假设我们已经学习得到了400个定义在8X8输入上的特征，每一个特征和图像卷积都会得到一个 (96 − 8 + 1) × (96 − 8+ 1) = 7921 维的卷积特征，由于有 400 个特征，所以每个样例 (example) 都会得到一个 892 × 400 =3,168,400 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便，并且容易出现过拟合 (over-fitting)。

为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值(或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池(pooling)，有时也称为平均池化或者最大池化 (取决于计算池化的方法)。

至此，卷积神经网络的基本结构和原理已经阐述完毕。

2.5 多层卷积

在实际应用中，往往使用多层卷积，然后再使用全连接层进行训练，多层卷积的目的是一层卷积学到的特征往往是局部的，层数越高，学到的特征就越全局化。

3 ImageNet-2010网络结构

ImageNetLSVRC是一个图片分类的比赛，其训练集包括127W+张图片，验证集有5W张图片，测试集有15W张图片。本文截取2010年AlexKrizhevsky的CNN结构进行说明，该结构在2010年取得冠军，top-5错误率为15.3%。值得一提的是，在今年的ImageNetLSVRC比赛中，取得冠军的GoogNet已经达到了top-5错误率6.67%。可见，深度学习的提升空间还很巨大。

下图即为Alex的CNN结构图。需要注意的是，该模型采用了2-GPU并行结构，即第1、2、4、5卷积层都是将模型参数分为2部分进行训练的。在这里，更进一步，并行结构分为数据并行与模型并行。数据并行是指在不同的GPU上，模型结构相同，但将训练数据进行切分，分别训练得到不同的模型，然后再将模型进行融合。而模型并行则是，将若干层的模型参数进行切分，不同的GPU上使用相同的数据进行训练，得到的结果直接连接作为下一层的输入。

上图模型的基本参数为：

输入：224×224大小的图片，3通道

第一层卷积：5×5大小的卷积核96个，每个GPU上48个。

第一层max-pooling：2×2的核。

第二层卷积：3×3卷积核256个，每个GPU上128个。

第二层max-pooling：2×2的核。

第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。

第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。

第五层卷积：3×3的卷积核256个，两个GPU上个128个。

第五层max-pooling：2×2的核。

第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。

第二层全连接：4096维

Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

4 DeepID网络结构

DeepID网络结构是香港中文大学的Sun

Yi开发出来用来学习人脸特征的卷积神经网络。每张输入的人脸被表示为160维的向量，学习到的向量经过其他模型进行分类，在人脸验证试验上得到了97.45%的正确率，更进一步的，原作者改进了CNN，又得到了99.15%的正确率。

如下图所示，该结构与ImageNet的具体参数类似，所以只解释一下不同的部分吧。

上图中的结构，在最后只有一层全连接层，然后就是softmax层了。论文中就是以该全连接层作为图像的表示。在全连接层，以第四层卷积和第三层max-pooling的输出作为全连接层的输入，这样可以学习到局部的和全局的特征。

6. 卷积神经网络CNN(Convolutional Neural Network)

上图计算过程为，首先我们可以将右边进行卷积的可以称为过滤器也可以叫做核，覆盖到左边第一个区域，然后分别按照对应位置相乘再相加，3*1+1*1+2*1+0*0+0*0+0*0+1*(-1)+8*(-1)+2*(-1)=-5;
按照上述的计算方法逐步按右移一个步长（步长可以设定为1,2，...等），然后按往下移，逐渐计算相应的值，得出最终的值。

如上图显示，对于第一个图像矩阵对应的图，一边是白色，一边是黑色，那么中间就会存在一个垂直的边缘，我们可以选择一个垂直边缘检测过滤器，如乘法右边的矩阵，那么两者做卷积后得出的图会显示如等号右边的结果矩阵对应的灰度图中间会有一个白色的中间带，也就是检测出来的边缘，那为什么感觉中间边缘带会比较宽呢？而不是很细的一个局域呢？原因是我们输入的图像只有6*6，过于小了，如果我们选择输出更大的尺寸的图，那么结果来说就是相对的一个细的边缘检测带，也就将我们的垂直边缘特征提取出来了。
上述都是人工选择过滤器的参数，随着神经网络的发展我们可以利用反向传播算法来学习过滤器的参数

我们可以将卷积的顾虑器的数值变成一个参数，通过反向传播算法去学习，这样学到的过滤器或者说卷积核就能够识别到很多的特征，而不是依靠手工选择过滤器。

- padding 操作，卷积经常会出现两个问题：
1.每经过一次卷积图像都会缩小，如果卷积层很多的话，后面的图像就缩的很小了；
2.边缘像素利用次数只有一次，很明显少于位于中间的像素，因此会损失边缘图像信息。
为了解决上述的问题，我们可以在图像边缘填充像素，也就是 padding 操作了。

如果我们设置在图像边缘填充的像素数为p，那么经过卷积后的图像是：(n+2p-f+1)x(n+2p-f+1).
如何去选择p呢
通常有两种选择：
-Valid:也就是说不填充操作(no padding),因此如果我们有nxn的图像，fxf的过滤器，那么我们进行卷积nxn fxf=(n-f+1)x(n-f+1)的输出图像；
-Same:也就是填充后是输出图像的大小的与输入相同，同样就有(n+2p)x(n+2p) fxf=nxn,那么可以算,n+2p-f+1=n,得到p=(f-1)/2。
通常对于过滤器的选择有一个默认的准则就是选择过滤器的尺寸是奇数的过滤器。
- 卷积步长设置(Strided COnvolution)
卷积步长也就是我们进行卷积操作时，过滤器每次移动的步长，上面我们介绍的卷积操作步长默认都是1，也就是说每次移动过滤器时我们是向右移动一格，或者向下移动一格。
但是我们可以对卷积进行步长的设置，也就是我们能够对卷积移动的格数进行设置。同样假如我们的图像是nxn,过滤器是fxf，padding设置是p，步长strided设置为s,那么我们进行卷积操作后输出的图像为((n+2p-f)/s+1)x((n+2p-f)/s+1),那么这样就会出现一个问题，如果计算结果不是整数怎么办？

一般是选择向下取整，也就是说明，只有当我们的过滤器完全在图像上能够覆盖时才对它进行计算，这是一个惯例。
实际上上述所述的操作在严格数学角度来说不是卷积的定义，卷积的定义上我们计算的时候在移动步长之前也就是对应元素相乘之前是需要对卷积核或者说我们的过滤器进行镜像操作的，经过镜像操作后再把对应元素进行相乘这才是严格意义上的卷积操作，在数学角度上来说这个操作不算严格的卷积操作应该是属于互相关操作，但是在深度学习领域中，大家按照惯例都省略了反转操作，也把这个操作叫做卷积操作

我们知道彩色图像有RGB三个通道，因此对于输入来说是一个三维的输入，那么对三维输入的图像如何进行卷积操作呢？

例子，如上图我们输入图像假设为6×6×3，3代表有RGB三个通道channel,或者可以叫depth深度，过滤器的选择为3×3×3，其中需要规定的是，顾虑器的channel必须与输入图像的channel相同，长宽没有限制，那么计算过程是，我们将过滤器的立体覆盖在输入，这样对应的27个数对应相乘后相加得到一个数，对应到我们的输出，因此这样的方式进行卷积后我们得出的输出层为4×4×1。如果我们有多个过滤器，比如我们分别用两个过滤器一个提取垂直特征，一个提取水平特征，那么输出图4×4×2 。也就是代表我们输出的深度或者说通道与过滤器的个数是相等的。

第l层的卷积标记如下：

加入我们的过滤器是3×3×3规格的，如果我们设定10个过滤器，那么需要学习的参数总数为每个过滤器为27个参数然后加上一个偏差bias那么每个过滤器的参数为28个，所以十个过滤器的参数为280个。从这里也就可以看出，不管我们输入的图片大小是多大，我们都只需要计算这些参数，因此参数共享也就很容易理解了。

为了缩减模型的大小，提高计算速度，同时提高所提取特征的鲁棒性，我们经常会使用池化层。池化层的计算方式与卷积类似，只是我们需要对每一个通道都进行池化操作。
池化的方式一般有两种：Max Pooling和Average Pooling。

上面为Max Pooling，那么计算方法与卷积类似，首先设定超参数比如过滤器的大小与步长，然后覆盖到对应格子上面，用最大值取代其值作为输出的结果，例如上图为过滤器选择2×2，步长选择为2，因此输出就是2×2的维度，每个输出格子都是过滤器对应维度上输入的最大值。如果为平均池化，那么就是选择其间的平均值作为输出的值。
因此从上面的过程我们看到，通过池化操作能够缩小模型，同时能让特征值更加明显，也就提高了提取特征的鲁棒性。

7. 一文看懂四种基本的神经网络架构

原文链接：
http://blackblog.tech/2018/02/23/Eight-Neural-Network/

更多干货就在我的个人博客 http://blackblog.tech 欢迎关注

刚刚入门神经网络，往往会对众多的神经网络架构感到困惑，神经网络看起来复杂多样，但是这么多架构无非也就是三类，前馈神经网络，循环网络，对称连接网络，本文将介绍四种常见的神经网络，分别是CNN，RNN，DBN，GAN。通过这四种基本的神经网络架构，我们来对神经网络进行一定的了解。

神经网络是机器学习中的一种模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。
一般来说，神经网络的架构可以分为三类：

前馈神经网络：
这是实际应用中最常见的神经网络类型。第一层是输入，最后一层是输出。如果有多个隐藏层，我们称之为“深度”神经网络。他们计算出一系列改变样本相似性的变换。各层神经元的活动是前一层活动的非线性函数。

循环网络：
循环网络在他们的连接图中定向了循环，这意味着你可以按照箭头回到你开始的地方。他们可以有复杂的动态，使其很难训练。他们更具有生物真实性。
循环网络的目的使用来处理序列数据。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。
循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。

对称连接网络：
对称连接网络有点像循环网络，但是单元之间的连接是对称的（它们在两个方向上权重相同）。比起循环网络，对称连接网络更容易分析。这个网络中有更多的限制，因为它们遵守能量函数定律。没有隐藏单元的对称连接网络被称为“Hopfield 网络”。有隐藏单元的对称连接的网络被称为玻尔兹曼机。

其实之前的帖子讲过一些关于感知机的内容，这里再复述一下。
首先还是这张图
这是一个M-P神经元

一个神经元有n个输入，每一个输入对应一个权值w，神经元内会对输入与权重做乘法后求和，求和的结果与偏置做差，最终将结果放入激活函数中，由激活函数给出最后的输出，输出往往是二进制的，0 状态代表抑制，1 状态代表激活。

可以把感知机看作是 n 维实例空间中的超平面决策面，对于超平面一侧的样本，感知器输出 1，对于另一侧的实例输出 0，这个决策超平面方程是 w⋅x=0。那些可以被某一个超平面分割的正反样例集合称为线性可分(linearly separable)样例集合，它们就可以使用图中的感知机表示。
与、或、非问题都是线性可分的问题，使用一个有两输入的感知机能容易地表示，而异或并不是一个线性可分的问题，所以使用单层感知机是不行的，这时候就要使用多层感知机来解决疑惑问题了。

如果我们要训练一个感知机，应该怎么办呢？
我们会从随机的权值开始，反复地应用这个感知机到每个训练样例，只要它误分类样例就修改感知机的权值。重复这个过程，直到感知机正确分类所有的样例。每一步根据感知机训练法则来修改权值，也就是修改与输入 xi 对应的权 wi，法则如下：

这里 t 是当前训练样例的目标输出，o 是感知机的输出，η 是一个正的常数称为学习速率。学习速率的作用是缓和每一步调整权的程度，它通常被设为一个小的数值（例如 0.1），而且有时会使其随着权调整次数的增加而衰减。

多层感知机，或者说是多层神经网络无非就是在输入层与输出层之间加了多个隐藏层而已，后续的CNN，DBN等神经网络只不过是将重新设计了每一层的类型。感知机可以说是神经网络的基础，后续更为复杂的神经网络都离不开最简单的感知机的模型，

谈到机器学习，我们往往还会跟上一个词语，叫做模式识别，但是真实环境中的模式识别往往会出现各种问题。比如：
图像分割：真实场景中总是掺杂着其它物体。很难判断哪些部分属于同一个对象。对象的某些部分可以隐藏在其他对象的后面。
物体光照：像素的强度被光照强烈影响。
图像变形：物体可以以各种非仿射方式变形。例如，手写也可以有一个大的圆圈或只是一个尖头。
情景支持：物体所属类别通常由它们的使用方式来定义。例如，椅子是为了让人们坐在上面而设计的，因此它们具有各种各样的物理形状。
卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险。子采样也叫做池化（pooling），通常有均值子采样（mean pooling）和最大值子采样（max pooling）两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。
卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。
这里举AlexNet为例：

·输入：224×224大小的图片，3通道
·第一层卷积：11×11大小的卷积核96个，每个GPU上48个。
·第一层max-pooling：2×2的核。
·第二层卷积：5×5卷积核256个，每个GPU上128个。
·第二层max-pooling：2×2的核。
·第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。
·第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。
·第五层卷积：3×3的卷积核256个，两个GPU上个128个。
·第五层max-pooling：2×2的核。
·第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。
·第二层全连接：4096维
·Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

卷积神经网络在模式识别领域有着重要应用，当然这里只是对卷积神经网络做了最简单的讲解，卷积神经网络中仍然有很多知识，比如局部感受野，权值共享，多卷积核等内容，后续有机会再进行讲解。

传统的神经网络对于很多问题难以处理，比如你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上，RNN能够对任何长度的序列数据进行处理。
这是一个简单的RNN的结构，可以看到隐藏层自己是可以跟自己进行连接的。

那么RNN为什么隐藏层能够看到上一刻的隐藏层的输出呢，其实我们把这个网络展开来开就很清晰了。

从上面的公式我们可以看出，循环层和全连接层的区别就是循环层多了一个权重矩阵 W。
如果反复把式2带入到式1，我们将得到：

在讲DBN之前，我们需要对DBN的基本组成单位有一定的了解，那就是RBM，受限玻尔兹曼机。
首先什么是玻尔兹曼机？
[图片上传失败...(image-d36b31-1519636788074)]
如图所示为一个玻尔兹曼机，其蓝色节点为隐层，白色节点为输入层。
玻尔兹曼机和递归神经网络相比，区别体现在以下几点：
1、递归神经网络本质是学习一个函数，因此有输入和输出层的概念，而玻尔兹曼机的用处在于学习一组数据的“内在表示”，因此其没有输出层的概念。
2、递归神经网络各节点链接为有向环，而玻尔兹曼机各节点连接成无向完全图。

而受限玻尔兹曼机是什么呢？
最简单的来说就是加入了限制，这个限制就是将完全图变成了二分图。即由一个显层和一个隐层构成，显层与隐层的神经元之间为双向全连接。

h表示隐藏层，v表示显层
在RBM中，任意两个相连的神经元之间有一个权值w表示其连接强度，每个神经元自身有一个偏置系数b（对显层神经元）和c（对隐层神经元）来表示其自身权重。
具体的公式推导在这里就不展示了

DBN是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。
DBN由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图所示。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。

生成对抗网络其实在之前的帖子中做过讲解，这里在说明一下。
生成对抗网络的目标在于生成，我们传统的网络结构往往都是判别模型，即判断一个样本的真实性。而生成模型能够根据所提供的样本生成类似的新样本，注意这些样本是由计算机学习而来的。
GAN一般由两个网络组成，生成模型网络，判别模型网络。
生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。
举个例子：生成网络 G 好比假币制造团伙，专门制造假币，判别网络 D 好比警察，专门检测使用的货币是真币还是假币，G 的目标是想方设法生成和真币一样的货币，使得 D 判别不出来，D 的目标是想方设法检测出来 G 生成的假币。
传统的判别网络：

生成对抗网络：

下面展示一个cDCGAN的例子（前面帖子中写过的）
生成网络

判别网络

最终结果，使用MNIST作为初始样本，通过学习后生成的数字，可以看到学习的效果还是不错的。

本文非常简单的介绍了四种神经网络的架构，CNN，RNN，DBN，GAN。当然也仅仅是简单的介绍，并没有深层次讲解其内涵。这四种神经网络的架构十分常见，应用也十分广泛。当然关于神经网络的知识，不可能几篇帖子就讲解完，这里知识讲解一些基础知识，帮助大家快速入（zhuang）门（bi）。后面的帖子将对深度自动编码器，Hopfield 网络长短期记忆网络（LSTM）进行讲解。

8. （7）卷积神经网络的基本结构

    卷积神经网络主要结构有：卷积层、池化层、和全连接层。通过堆叠这些层结构形成一个卷积神经网络。将原始图像转化为类别得分，其中卷积层和全连接层拥有参数，激活层和池化层没有参数。参数更新通过反向传播实现。

（1）卷积层

卷积核是一系列的滤波器，用来提取某一种特征

    我们用它来处理一个图片，当图像特征与过滤器表示的特征相似时，卷积操作可以得到一个比较大的值。

    当图像特征与过滤器不相似时，卷积操作可以得到一个比较小的值，实际上，卷积的结果特征映射图显示的是对应卷积核所代表的特征在原始特征图上的分布情况。

每个滤波器在空间上（宽度和高度）都比较小，但是深度和输入数据保持一致（特征图的通道数），当卷积核在原图像滑动时，会生成一个二维激活图，激活图上每个空间位置代表原图像对该卷积核的反应。每个卷积层，会有一整个集合的卷积核，有多少个卷积核，输出就有多少个通道。每个卷积核生成一个特征图，这些特征图堆叠起来组成整个输出结果。

卷积核体现了参数共享和局部连接的模式。每个卷积核的大小代表了一个感受野的大小。

    卷积后的特征图大小为(W-F+2*P)/s+1 ；P 为填充 s 为步长

（2）池化层

池化层本质上是下采样，利用图像局部相关性的原理（认为最大值或者均值代表了这个局部的特征），对图像进行子抽样，可以减少数据处理量同时保留有用信息。这里池化有平均池化，L2范式池化，最大池化，经过实践，最大池化的效果要好于平均池化（平均池化一般放在卷积神经网络的最后一层），最大池化有利于保存纹理信息，平均池化有利于保存背景信息。实际上（因为信息损失的原因）我们可以看到，通过在卷积时使用更大的步长也可以缩小特征映射的尺寸，并不一定要用池化，有很多人不建议使用池化层。32*32在5*5卷积核步长为1下可得到28*28。

池化操作可以逐渐降低数据体的空间尺寸，这样的话就能减少网络中参数的数量，使得计算资源耗费变少，也能有效控制过拟合。

（3）全连接层

通过全连接层将特征图转化为类别输出。全连接层不止一层，在这个过程中为了防止过拟合会引入DropOut。最新研究表明，在进入全连接层之前，使用全局平均池化可以有效降低过拟合。

（4）批归一化BN——Batch Normal

    随着神经网络训练的进行，每个隐层的参数变化使得后一层的输入发生变化，从而每一批的训练数据的分布也随之改变，致使网络在每次迭代中都需要拟合不同的数据分布，增大训练复杂度和过拟合的风险，只能采用较小的学习率去解决。

    通常卷积层后就是BN层加Relu。BN已经是卷积神经网络中的一个标准技术。标准化的过程是可微的，因此可以将BN应用到每一层中做前向和反向传播，同在接在卷积或者全连接层后，非线性层前。它对于不好的初始化有很强的鲁棒性，同时可以加快网络收敛速度。

（5）DropOut

  Dropout对于某一层神经元，通过定义的概率来随机删除一些神经元，同时保持输入层与输出层神经元的个数不变，然后按照神经网络的学习方法进行参数更新，下一次迭代中，重新随机删除一些神经元，直至训练结束。

（6）softmax层

  Softmax层也不属于CNN中单独的层，一般要用CNN做分类的话，我们习惯的方式是将神经元的输出变成概率的形式，Softmax就是做这个的：。显然Softmax层所有的输出相加为1，按照这个概率的大小确定到底属于哪一类。

9. 卷积神经网络用全连接层的参数是怎么确定的

卷积神经网络用全连接层的参数确定：卷积神经网络与传统的人脸检测方法不同，它是通过直接作用于输入样本，用样本来训练网络并最终实现检测任务的。

它是非参数型的人脸检测方法，可以省去传统方法中建模、参数估计以及参数检验、重建模型等的一系列复杂过程。本文针对图像中任意大小、位置、姿势、方向、肤色、面部表情和光照条件的人脸。

输入层

卷积神经网络的输入层可以处理多维数据，常见地，一维卷积神经网络的输入层接收一维或二维数组，其中一维数组通常为时间或频谱采样；二维数组可能包含多个通道；二维卷积神经网络的输入层接收二维或三维数组；三维卷积神经网络的输入层接收四维数组。

由于卷积神经网络在计算机视觉领域应用较广，因此许多研究在介绍其结构时预先假设了三维输入数据，即平面上的二维像素点和RGB通道。

10. 怎样判断神经网络有几个输入、几个隐层和几个输出啊！

那我就用最简单的语言告诉你：
你数数输入端有几个圆圈就有几个输入量，输出端一样的。
输入端和输出端只有一层。单层网络没有隐含层，多层则有一层或是多层隐含层。至于每层隐含层的数量，你数数个数就出来了。
其实我感觉，设置一个三层的神经网络就可以了。隐含层的神经元只需要几个就能解决问题了。没有必要太多。

阅读全文

与神经网络输入可以有多少通道相关的资料

热点内容

电脑宽带有网络但是没法上网发布：2025-03-15 14:03:32 浏览：402

苹果蜂窝网络账单怎么删除发布：2025-03-15 14:03:28 浏览：86

路由器连接了wifi没有网络发布：2025-03-15 13:51:39 浏览：70

cad网络打印机设置发布：2025-03-15 13:44:17 浏览：125

南京网络营销技术咨询案例发布：2025-03-15 13:44:05 浏览：182

游戏大厅网络不好怎么办发布：2025-03-15 13:43:15 浏览：410

如何获得抖音网络经营场所证明发布：2025-03-15 13:37:23 浏览：632

gps和数据网络哪个好发布：2025-03-15 13:30:53 浏览：941

虚拟机服务器配置和计算机网络发布：2025-03-15 13:30:50 浏览：528

计算机网络基础子网号算法发布：2025-03-15 12:48:54 浏览：413

网络连接ISP 发布：2025-03-15 12:47:34 浏览：277

副路由器禁用网络发布：2025-03-15 12:40:51 浏览：115

小洋老师网络安全手抄报发布：2025-03-15 12:33:00 浏览：772

广电搜索不到无线网络发布：2025-03-15 12:17:46 浏览：110

中山市网络机柜哪里卖发布：2025-03-15 12:17:34 浏览：492

网络寻呼机哪个好发布：2025-03-15 12:05:37 浏览：792

如何在手机限制网络速度发布：2025-03-15 12:00:38 浏览：115

手机总是提示网络是否正常发布：2025-03-15 12:00:37 浏览：942

网络机顶盒能设置一个台吗发布：2025-03-15 11:41:55 浏览：59

智能电视为什么设置不了网络发布：2025-03-15 11:41:54 浏览：778

导航:首页 > 网络设置 > 神经网络输入可以有多少通道

神经网络输入可以有多少通道

与神经网络输入可以有多少通道相关的资料

友情链接