Ⅰ learning confidence for out-of-distribution detection in neural networks
神经网络拥有很强的预测能力,但它们往往无法知道自己的预测何时可能出错。与此密切相关的是out-of-distribution检测任务,在这个任务中,模型必须确定输入是否超出了它的能力范围。为了解决这些问题,文章提出了一种学习神经网络置信度估计的方法,该方法易于实现,并产生直观的可解释输出,且不需要使用out-of-distribution的样本来进行训练。
这篇文章直接在训练分类模型的同时训练一个信心估计(confidence estimate)的模型。给定每一个输入的样本,神经网络除了给出分类结果之外,同时还给出一个confidence,表示神经网络对这个结果的信心。文章期望遇到in distribution样本的时候,模型给出一个较高的confidence,而遇到out-of-distribution样本的时候,模型能给出一个比较低的confidence。
对于out-of-distribution检测任务来说,这虽然是一个二分类问题,但是它与常见的二分类问题不同,主要区别在与没有训练集。因为在实际应用场景中,in distribution和out-of-distribution的比例极为悬殊,直接使用标签去进行学习显然是不可取的。
为了解决这个问题,作者开了这么一个脑洞:
假设我们需要回答一系列问题,而我们可以根据对问题的熟悉程度来选择获取一些额外的提示,每回答对一个问题就会得到一些分数,当然每获取一次提示就会扣一些分数。我们的目标是要得到尽量多的分数。
显然,对于上面这个脑洞来说,想获得高分的策略就是在熟悉的问题上尽量不需要提示,而在不熟悉的问题上去获取一些提示。而这篇文章的思路就是基于这个策略。
文章设计的模型架构如上图所示。在原来的神经网络上加了一个输出 作为原来的输出 (预测结果)的信心得分。整个网络可以形式化地描述为:
在训练过程中,模型的预测结果在经过“提示”之后,可以写成:
其中, 这一项实际上就是代表“提示”。
那么分类的损失函数就应该写为:
显然,如果直接用这个损失函数进行训练,神经网络会倾向于将信心得分 训练为0,这样得到的预测结果 实际就是ground truth。
但是不要忘了在motivation中提到的,每给一点提示就会扣一些分数。文章就增加了一个损失函数来做为 的惩罚:
整个神经网络的损失函数就变成了:
其中, 是一个超参数。
作者在实现的过程中首先遇到的问题是神经网络倾向于把任意输入的信息得分 统一成一个值,也就是说,无论是什么输入,神经网络都认为信心得分是一样的,这显然违背了设计的初衷。
为了解决这个问题,文章引入了一个budget参数 :当 的时候(即信心得分 比较小),增加 ,而当 的时候(即信心得分 比较大),就减少 。这个操作很好理解,如果神经网络的信心不足( 较大),则增大信心的loss所占比例,以增强信心;
如果信心比较强( 较小),则减小信心的loss所占比例,优先提高准确率。
作者在实验过程中发现这种学习信心的机制导致了强烈的正则化,让神经网络能够忽略一些数据集的噪音。但是这也带来了一些负面影响:神经网络在处理边界数据的时候会比较“懒”,影响了训练得到模型的性能。
为了解决这个矛盾,作者在训练的时候,有一半的数据采用新提出的损失函数,即 ,而另一半则采用原来的损失函数。
这部分没看懂
之前有一些技术直接使用分类器在所有类别中的最高得分,即 作为信心得分,这篇文章采用另外一种方式,直接训练一个模型来估算信心得分。文章只是通过实验验证了两种方法的优劣,但遗憾的是并未深入分析导致这种结果的原因
Ⅱ YOLOv1网络
YOLO意思是You Only Look Once,创造性的将候选区和对象识别这两个阶段合二为一,看一眼图片(不用看两眼哦)就能知道有哪些对象以及它们的位置。其最大的特点是运行速度很快,可以用于实时系统。
实际上,YOLO并没有真正去掉候选区,而是采用了预定义的候选区(准确点说应该是预测区,因为并不是Faster RCNN所采用的Anchor)。也就是将图片划分为 7 * 7=49 个网格(grid),每个网格允许预测出2个边框(bounding box,包含某个对象的矩形框),总共 49 * 2=98 个bounding box。可以理解为98个候选区,它们很粗略的覆盖了图片的整个区域。
RCNN虽然会找到一些候选区,但毕竟只是候选,等真正识别出其中的对象以后,还要对候选区进行微调,使之更接近真实的bounding box。这个过程就是边框回归:将候选区bounding box调整到更接近真实的bounding box。
既然反正最后都是要调整的,干嘛还要先费劲去寻找候选区呢,大致有个区域范围就行了,所以YOLO就这么干了。
去掉候选区这个步骤以后,YOLO的结构非常简单,就是单纯的卷积、池化最后加了两层全连接。单看网络结构的话,和普通的CNN对象分类网络几乎没有本质的区别, 最大的差异是最后输出层用线性函数做激活函数,因为需要预测bounding box的位置(数值型),而不仅仅是对象的概率。 所以粗略来说,YOLO的整个结构就是输入图片经过神经网络的变换得到一个输出的张量,如下图所示。
因为只是一些常规的神经网络结构,所以,理解YOLO的设计的时候,重要的是理解输入和输出的映射关系。
输入就是原始图像,唯一的要求是缩放到448 * 448的大小。主要是因为YOLO的网络中,卷积层最后接了两个全连接层,全连接层是要求固定大小的向量作为输入,所以倒推回去也就要求原始图像有固定的尺寸。那么YOLO设计的尺寸就是448*448。
输出是一个 7 7 30 的张量(tensor)。
1) 7 * 7网格
根据YOLO的设计,输入图像被划分为 7 * 7 的网格(grid),输出张量中的 7 * 7 就对应着输入图像的 7 * 7 网格。或者我们把 7 * 7 * 30 的张量看作 7 * 7=49个30维的向量,也就是输入图像中的每个网格对应输出一个30维的向量。参考上图,比如输入图像左上角的网格对应到输出张量中左上角的向量。
要注意的是,并不是说仅仅网格内的信息被映射到一个30维向量。经过神经网络对输入图像信息的提取和变换,网格周边的信息也会被识别和整理,最后编码到那个30维向量中。
2)30维向量
具体来看每个网格对应的30维向量中包含了哪些信息。
因为YOLO支持识别20种不同的对象(人、鸟、猫、汽车、椅子等),所以这里有20个值表示该网格位置存在任一种对象的概率。可以记为 ,之所以写成条件概率,意思是如果该网格存在一个对象Object,那么它是 的概率是 。记不清条件概率的同学可以参考一下 理解贝叶斯定理 )
每个bounding box需要4个数值来表示其位置,(Center_x,Center_y,width,height),即(bounding box的中心点的x坐标,y坐标,bounding box的宽度,高度),2个bounding box共需要8个数值来表示其位置。
bounding box的置信度 = 该bounding box内存在对象的概率 * 该bounding box与该对象实际bounding box的IOU,用公式来表示就是
是bounding box内存在对象的概率,区别于上面的 , 并不管是哪个对象,它体现的是 有或没有 对象的概率;上面的 意思是假设已经有一个对象在网格中了,这个对象具体是哪一个。
是 bounding box 与 对象真实bounding box 的IOU(Intersection over Union,交并比)。要注意的是,现在讨论的30维向量中的bounding box是YOLO网络的输出,也就是预测的bounding box。所以 体现了预测的bounding box与真实bounding box的接近程度。
还要说明的是,虽然有时说"预测"的bounding box,但这个IOU是在训练阶段计算的。等到了测试阶段(Inference),这时并不知道真实对象在哪里,只能完全依赖于网络的输出,这时已经不需要(也无法)计算IOU了。
综合来说,一个bounding box的置信度Confidence意味着它 是否包含对象且位置准确的程度。置信度高表示这里存在一个对象且位置比较准确,置信度低表示可能没有对象 或者 即便有对象也存在较大的位置偏差。
简单解释一下IOU。下图来自Andrew Ng的深度学习课程,IOU=交集部分面积/并集部分面积,2个box完全重合时IOU=1,不相交时IOU=0。
总的来说,30维向量 = 20个对象的概率 + 2个bounding box * 4个坐标 + 2个bounding box的置信度。
3)讨论
每个30维向量中只有一组(20个)对象分类的概率,也就只能预测出一个对象。所以输出的 7 * 7=49个 30维向量,最多表示出49个对象。
每个30维向量中有2组bounding box,所以总共是98个候选区。
Faster RCNN等一些算法采用每个grid中手工设置n个Anchor(先验框,预先设置好位置的bounding box)的设计,每个Anchor有不同的大小和宽高比。YOLO的bounding box看起来很像一个grid中2个Anchor,但它们不是。YOLO并没有预先设置2个bounding box的大小和形状,也没有对每个bounding box分别输出一个对象的预测。它的意思仅仅是对一个对象预测出2个bounding box,选择预测得相对比较准的那个。
这里采用2个bounding box,有点不完全算监督算法,而是像进化算法。如果是监督算法,我们需要事先根据样本就能给出一个正确的bounding box作为回归的目标。但YOLO的2个bounding box事先并不知道会在什么位置,只有经过前向计算,网络会输出2个bounding box,这两个bounding box与样本中对象实际的bounding box计算IOU。这时才能确定,IOU值大的那个bounding box,作为负责预测该对象的bounding box。
训练开始阶段,网络预测的bounding box可能都是乱来的,但总是选择IOU相对好一些的那个,随着训练的进行,每个bounding box会逐渐擅长对某些情况的预测(可能是对象大小、宽高比、不同类型的对象等)。所以,这是一种进化或者非监督学习的思想。
另外论文中经常提到responsible。比如:Our system divides the input image into an S*S grid. If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object. 这个 responsible 有点让人疑惑,对预测"负责"是啥意思。其实没啥特别意思,就是一个Object只由一个grid来进行预测,不要多个grid都抢着预测同一个Object。更具体一点说,就是在设置训练样本的时候,样本中的每个Object归属到且仅归属到一个grid,即便有时Object跨越了几个grid,也仅指定其中一个。具体就是计算出该Object的bounding box的中心位置,这个中心位置落在哪个grid,该grid对应的输出向量中该对象的类别概率是1(该gird负责预测该对象),所有其它grid对该Object的预测概率设为0(不负责预测该对象)。
还有:YOLO predicts multiple bounding boxes per grid cell. At training time we only want one bounding box predictor to be responsible for each object. 同样,虽然一个grid中会产生2个bounding box,但我们会选择其中一个作为预测结果,另一个会被忽略。下面构造训练样本的部分会看的更清楚。
7 * 7网格,每个网格2个bounding box,对448 * 448输入图像来说覆盖粒度有点粗。我们也可以设置更多的网格以及更多的bounding box。设网格数量为 S * S,每个网格产生B个边框,网络支持识别C个不同的对象。这时,输出的向量长度为: ,整个输出的tensor就是: 。
YOLO选择的参数是 7 7网格,2个bounding box,20种对象,因此 输出向量长度 = 20 + 2 * (4+1) = 30。整个输出的tensor就是 7 7*30。
因为网格和bounding box设置的比较稀疏,所以这个版本的YOLO训练出来后预测的准确率和召回率都不是很理想,后续的v2、v3版本还会改进。当然,因为其速度能够满足实时处理的要求,所以对工业界还是挺有吸引力的。
作为监督学习,我们需要先构造好训练样本,才能让模型从中学习。
对于一张输入图片,其对应输出的7 7 30张量(也就是通常监督学习所说的标签y或者label)应该填写什么数据呢。
首先,输出的 7 7维度 对应于输入的 7 7 网格。 然后具体看下30维向量的填写(请对照上面图6)。
对于输入图像中的每个对象,先找到其中心点。比如上图中的自行车,其中心点在黄色圆点位置,中心点落在黄色网格内,所以这个黄色网格对应的30维向量中,自行车的概率是1,其它对象的概率是0。所有其它48个网格的30维向量中,该自行车的概率都是0。这就是所谓的"中心点所在的网格对预测该对象负责"。狗和汽车的分类概率也是同样的方法填写。
训练样本的bounding box位置应该填写对象实际的bounding box,但一个对象对应了2个bounding box,该填哪一个呢?上面讨论过,需要根据网络输出的bounding box与对象实际bounding box的IOU来选择,所以要在训练过程中动态决定到底填哪一个bounding box。
上面讨论过置信度公式 , 可以直接计算出来,就是用网络输出的2个bounding box与对象真实bounding box一起计算出IOU。
然后看2个bounding box的IOU,哪个比较大(更接近对象实际的bounding box),就由哪个bounding box来负责预测该对象是否存在,即该bounding box的 ,同时对象真实bounding box的位置也就填入该bounding box。另一个不负责预测的bounding box的 。
总的来说就是,与对象实际bounding box最接近的那个bounding box,其 ,该网格的其它bounding box的 。
举个例子,比如上图中自行车的中心点位于4行3列网格中,所以输出tensor中4行3列位置的30维向量如下图所示。
翻译成人话就是:4行3列网格位置有一辆自行车,它的中心点在这个网格内,它的位置边框是bounding box1所填写的自行车实际边框。
注意,图中将自行车的位置放在bounding box1,但实际上是在训练过程中等网络输出以后,比较两个bounding box与自行车实际位置的IOU,自行车的位置(实际bounding box)放置在IOU比较大的那个bounding box(图中假设是bounding box1),且该bounding box的置信度设为1。
损失就是网络实际输出值与样本标签值之间的偏差。
YOLO给出的损失函数如下:
其中,
是指网格i存在对象;
是指网格i的第j个bounding box中存在对象;
是指网格i的第j个bounding box中不存在对象。
总的来说,就是用网络输出与样本标签的各项内容的误差平方和作为一个样本的整体误差。 损失函数中的几个项是与输出的30维向量中的内容相对应的。
公式第5行,注意 意味着存在对象的网格才计入误差。
公式第1行和第2行。
a) 都带有 意味着只有"负责"(IOU比较大)预测的那个bounding box的数据才会计入误差;
b) 第2行宽度和高度先取了平方根,因为如果直接取差值的话,大的对象对差值的敏感度较低,小的对象对差值的敏感度较高,所以取平方根可以降低这种敏感度的差异,使得较大的对象和较小的对象在尺寸误差上有相似的权重。
c) 乘以 调节bounding box位置误差的权重(相对分类误差和置信度误差)。YOLO设置 ,即调高位置误差的权重。
公式第3行和第4行。
a) 第3行是存在对象的bounding box的置信度误差。带有 意味着只有"负责"(IOU比较大)预测的那个bounding box的置信度才会计入误差。
b) 第4行是不存在对象的bounding box的置信度误差。因为不存在对象的bounding box应该老老实实的说"我这里没有对象",也就是输出尽量低的置信度。如果它不恰当的输出较高的置信度,会与真正"负责"该对象预测的那个bounding box产生混淆。其实就像对象分类一样,正确的对象概率最好是1,所有其它对象的概率最好是0。
c) 第4行乘以 调节不存在对象的bounding box 的置信度的权重(相对其他误差)。YOLO设置 ,即调低不存在对象的bounding box的置信度误差的权重。
YOLO先使用ImageNet数据集对前20层卷积网络进行预训练,然后使用完整的网络,在PASCAL VOC数据集上进行对象识别和定位的训练和预测。YOLO的网络结构如下图所示:
YOLO的最后一层采用线性激活函数,其它层都是Leaky ReLU。训练中采用了dropout和数据增强(data augmentation)来防止过拟合。更多细节请参考原论文。
训练好的YOLO网络,输入一张图片,将输出一个 7 7 30 的张量(tensor)来表示图片中所有网格包含的对象(概率)以及该对象可能的2个位置(bounding box)和可信程度(置信度)。 为了从中提取出最有可能的那些对象和位置,YOLO采用NMS(Non-maximal suppression,非极大值抑制)算法。
NMS方法并不复杂,其核心思想是:选择得分最高的作为输出,与该输出重叠的去掉,不断重复这一过程直到所有备选处理完。
YOLO的NMS计算方法如下。
网络输出的7 * 7 * 30的张量,在每一个网格中,对象 位于第j个bounding box的得分: ,它代表着某个对象 存在第j个bounding box的可能性。
每个网格有:20个对象的概率*2个bounding box的置信度,共40个得分(候选对象)。49个网格共1960个得分。Andrew Ng建议每种对象分别进行NMS,那么每种对象有 1960/20=98 个得分。
NMS步骤如下:
1)设置一个Score的阈值,低于该阈值的候选对象排除掉(将该Score设为0)
2)遍历每一个对象类别
2.1)遍历该对象的98个得分
2.1.1)找到Score最大的那个对象及其bounding box,添加到输出列表
2.1.2)对每个Score不为0的候选对象,计算其与上面2.1.1输出对象的bounding box的IOU
2.1.3)根据预先设置的IOU阈值,所有高于该阈值(重叠度较高)的候选对象排除掉(将Score设为0)
2.1.4)如果所有bounding box要么在输出列表中,要么Score=0,则该对象类别的NMS完成,返回步骤2处理下一种对象
3)输出列表即为预测的对象
YOLO以速度见长,处理速度可以达到45fps,其快速版本(网络较小)甚至可以达到155fps。这得益于其识别和定位合二为一的网络设计,而且这种统一的设计也使得训练和预测可以端到端的进行,非常简便。
不足之处是小对象检测效果不太好(尤其是一些聚集在一起的小对象),对边框的预测准确度不是很高,总体预测精度略低于Fast RCNN。主要是因为网格设置比较稀疏,而且每个网格只预测两个边框,另外Pooling层会丢失一些细节信息,对定位存在影响。
Ⅲ 神经网络算法如何确定期望输出值新手求教,谢谢。
把P定义为你期望输出的那个点的参数矩阵,net为你训练得到的网络,你可以用sim(net,P)取出期望值。
Ⅳ 神经网络的准确率是怎么计算的
其实神经网络的准确率的标准是自己定义的。
我把你的例子赋予某种意义讲解:
1,期望输出[1 0 0 1],每个元素代表一个属性是否存在。像着4个元素分别表示:是否肺炎,是否肝炎,是否肾炎,是否胆炎,1表示是,0表示不是。
2,你的神经网络输出必定不可能全部都是输出只有0,1的输出。绝大部分是像[ 0.9968 0.0000 0.0001 0.9970]这样的输出,所以只要输出中的某个元素大于一定的值,例如0.7,我们就认为这个元素是1,即是有某种炎。否则为0,所以你的[ 0.9968 0.0000 0.0001 0.9970]可以看成是[1,0,0,1],。
3,所以一般神经网络的输出要按一定的标准定义成另一种输出(像上面说的),看调整后的输出和期望输出是否一致,一致的话算正确,不一致算错误。
4,用总量为n的检验样本对网络进行评价,输出调整后的输出,统计错误的个数,记为m。
所以检验正确率可以定义为n/m。
Ⅳ RBF神经网络可以预测质量么
不管你是用RBF还是BP或别的什么,原理是一样的。
从根本性质来看,分类问题的答案是二值结果:0或1,对每一个答案,可以进一步做分类,迭代下去就可以得到更细化的分类。
从实现来看,网络产生的分类结果,实际上是一个置信度,它介于0与1间,参数设定置信度大于多少就分类为1,在这一步之间,网络已经得到置信度了,这个置信度就可以作为一个评分,也就是你说的生产质量。
比如你的训练了一个识别照片与手绘的网络,识别为照片返回1,识别为手绘返回0,那么,在得到1或0之前,这个网络实际得到的是一个“这张图是照片的可能性”这就是置信度。那么,输出0或1时,这个网络可以称为“照片/手绘分类网络”,如果输出置信度,并只输入手绘图,此网络可以称为“写实手绘评分网络”
搞这一块的,不能停留在只是简单使用现有的东西,不把原理搞明白,只能是蓝领。
Ⅵ bp神经网络对输入数据和输出数据有什么要求
p神经网络的输入数据越多越好,输出数据需要反映网络的联想记忆和预测能力。
BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。
BP神经网络模型拓扑结构包括输入层(input)、隐层(hide layer)和输出层(output layer)。BP网络具有高度非线性和较强的泛化能力,但也存在收敛速度慢、迭代步数多、易于陷入局部极小和全局搜索能力差等缺点。
(6)神经网络怎么输出置信度扩展阅读:
BP算法主要思想是:输入学习样本,使用反向传播算法对网络的权值和偏差进行反复的调整训练,使输出的向量与期望向量尽可能地接近,当网络输出层的误差平方和小于指定的误差时训练完成,保存网络的权值和偏差。
1、初始化,随机给定各连接权及阀值。
2、由给定的输入输出模式对计算隐层、输出层各单元输出
3、计算新的连接权及阀值,计算公式如下:
4、选取下一个输入模式对返回第2步反复训练直到网络设输出误差达到要求结束训练。
Ⅶ BP神经网络程序,在程序训练后,误差也达到了合适的范围,如何把输出值显示出来
训练好后,你自己定义的net就是结果,只要把它的权值和阈值导出来即可。
W1=net.IW{1,1};
W2=net.LW{2,1};
B1=net.b{1};
B2=net.b{2};
解释一下:
net.IW 属性定义了从网络输入向量到网络层的权值向量(即输入层的权值向量)结构。其值为Nl*Ni的细胞矩阵,Nl为网络层数(net.numLayers),Ni为输入向量数(net.numInputs)。通过访问net.IW{i,j},可以获得第i 个网络层来自第j 个输入向量的权值向量值。 所以一般情况下net,iw{1,1}就是输入层和隐含层之间的权值。
net.LW定义了从一个网络层到另一个网络层的权值向量结构。其值为Nl*Nl的细胞矩阵,Nl为网络层数(net.numLayers)。通过访问net.LW{i,j},可以获得第i 个网络层来自第j 个网络层的权值向量值。 因此,如果网络是单隐含层,net.lw{2,1}就是输出层和隐含层之间的权值。