1. 全连接层的作用
全连接层(fully connected layers,简称FC)在卷积神经网络中扮演着“分类器”的重要角色。它们负责将卷积层提取的特征图(feature maps)转换为一维向量,并传递给输出层进行最终的分类或回归任务。
然而,全连接层也面临着参数冗余的问题。据估计,全连接层的参数数量可能占整个网络参数的80%左右。为了解决这一问题,一些性能优异的网络模型,如ResNet和GoogLeNet,开始采用全局平均池化(global average pooling,简称GAP)来替代全连接层,以融合学到的深度特征。这种替代方法不仅减少了模型的参数数量,还提高了模型的预测性能。
值得注意的是,尽管全连接层在某些情况下可能被全局平均池化所取代,但它们在模型表示能力迁移过程中仍然发挥着“防火墙”的作用。这意味着,在将模型从一个任务迁移到另一个任务时,全连接层可以帮助模型保留其关键特征,从而提高迁移学习的效果。
综上所述,全连接层在卷积神经网络中既是分类器也是关键组件。尽管它们面临参数冗余的挑战,但随着新型网络模型的发展,这些问题正在逐步得到解决。未来,随着技术的不断进步,我们期待全连接层在更多应用场景中发挥更大的作用。
2. 全连接神经网络简介
人工神经网络(Artificial Neural Networks,简称ANNs)是一种模仿大脑神经网络行为特征的算法数学模型,用于分布式并行信息处理。这些模型通过调整内部节点之间的复杂连接关系,以达到处理信息的目的。
全连接神经网络在任意两层间,每一层节点与下一层所有节点均相连接。这样的结构使得网络能够捕捉复杂的特征模式。
在全连接层的前向传播过程中,使用梯度下降算法计算权重偏导,涉及训练数据和权重初始化。通过迭代更新权重以最小化损失函数。反向传播则是基于梯度下降原则,从输出层向输入层逐层计算梯度。
优化方法包括梯度下降法、随机梯度下降法、Adam方法等。梯度下降法通过迭代更新参数来最小化损失函数,随机梯度下降法则使用单个样本进行快速更新,而mini batch梯度下降法则在两者之间取得平衡,使用小批量数据进行更新。
在选择学习率、参数更新策略以及处理极值点和鞍点时,面临挑战。Momentum方法引入动量加速梯度下降,Nesterov方法在极值附近提前减速,Adagrad和AdaDelta方法自适应调整学习率,Adam方法则结合了动量和自适应学习率调整。
Batch-Normalization(BN)操作标准化数据分布,使其期望为0,方差为1,通过可学习参数γ和β调整分布。Layer-Normalization(LN)对同一层输出进行标准化,不受批量大小影响,适用于序列型网络。
Dropout技术在每个训练批次中随机屏蔽神经元,以减少过拟合,促进模型泛化能力。在训练阶段,神经元激活值以一定概率置为0;测试阶段,权重乘以概率p。这一过程有助于降低特征检测器间的相互依赖,增强模型对多种特征的学习能力。