深度学习之卷积神经网络全连接层

站长

2024年04月01日 22:24 · 阅读数 61

全连接层（Fully Connected Layer），也称为密集连接层（Dense Layer），是深度学习神经网络中最常用的一种层，通常用于将卷积层、池化层等的特征提取结果进行分类或回归等任务。

全连接层的输入通常是一个二维矩阵，也可以是一个一维向量。如果输入是一个二维矩阵，那么通常需要将其先展开为一维向量，然后再进行全连接操作。假设输入是一个大小为 N×MN\times MN×M 的矩阵，其中 NNN 表示样本数，MMM 表示特征数，则全连接层的输出可以表示为：

深度学习之卷积神经网络全连接层

其中，XXX 表示输入矩阵，WWW 表示权重矩阵，bbb 表示偏置向量，YYY 表示全连接层的输出。在这个公式中，XXX 和 YYY 都是 N×DN\times DN×D 的矩阵，WWW 是 D×CD\times CD×C 的矩阵，bbb 是 1×C1\times C1×C 的向量，DDD 表示输入特征的维数，CCC 表示输出类别的数目。

在计算输出时，我们先将输入矩阵 XXX 展开成一维向量，然后与权重矩阵 WWW 相乘，再加上偏置向量 bbb，最后通过一个激活函数（例如 ReLU）将输出进行非线性变换，得到全连接层的最终输出 YYY。

下面是一个使用 TensorFlow 实现全连接层的示例代码：

import tensorflow as tf

# 定义输入和输出维度
input_dim = 784
output_dim = 10

# 定义全连接层的权重和偏置
weights = tf.Variable(tf.random.normal([input_dim, output_dim]), dtype=tf.float32)
biases = tf.Variable(tf.random.normal([output_dim]), dtype=tf.float32)

# 定义全连接层的计算图
def fully_connected_layer(x):
    y = tf.matmul(x, weights) + biases
    return tf.nn.relu(y)

# 使用全连接层进行分类任务
x = tf.placeholder(tf.float32, shape=[None, input_dim])
y_true = tf.placeholder(tf.float32, shape=[None, output_dim])
y_pred = fully_connected_layer(x)

# 定义损失函数和优化器
cross_entropy = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y_true, logits=y_pred))
optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(cross_entropy)

# 开始训练
with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for i in range(1000):
        batch_x, batch_y = mnist.train.next_batch(100)
        sess.run(optimizer, feed_dict={x: batch_x, y_true: batch_y})
        if i % 100 == 0:
            loss = sess.run(cross_entropy, feed_dict={x: mnist.test.images, y_true: mnist.test.labels})
            # 输出当前损失
            print("Step %d, loss: %f" % (i, loss))

在这个示例代码中，我们首先定义了输入维度和输出维度，然后使用 TensorFlow 的变量（Variable）定义了权重和偏置。接着，我们定义了一个计算图函数 fully_connected_layer，用于实现全连接层的前向计算。最后，我们使用全连接层进行分类任务，并定义了损失函数和优化器，最终使用 TensorFlow 的 Session 进行训练和测试。

需要注意的是，在实际应用中，全连接层常常需要与其他类型的层结合使用，例如卷积层、池化层等，以构建更为复杂的深度学习模型。

数学原理

全连接层的数学原理非常简单，其本质就是一个矩阵乘法和一个加法操作。假设输入是一个 mmm 维向量 xxx，输出是一个 nnn 维向量 yyy，那么全连接层的计算可以表示为：

深度学习之卷积神经网络全连接层

其中 WWW 是一个 n×mn \times mn×m 的矩阵，称为权重矩阵（Weight Matrix），bbb 是一个 nnn 维向量，称为偏置向量（Bias Vector）。这个式子其实就是一个多元线性回归模型，其中 WWW 和 bbb 是模型的参数，需要通过训练来得到。

在实际应用中，全连接层通常会与非线性激活函数一起使用，以增强模型的表达能力。常用的激活函数有 sigmoid、ReLU、tanh 等，它们的作用是在输入数据上施加非线性变换，从而使得模型可以拟合更为复杂的函数关系。全连接层与激活函数的组合可以表示为：

深度学习之卷积神经网络全连接层

其中 fff 表示激活函数。通常，全连接层与激活函数的组合被称为神经网络的一层，因此全连接层有时也被称为神经元（Neuron）。

实现方式

全连接层的实现方式非常简单，只需要进行矩阵乘法和加法操作即可。下面我们给出一个 Python 实现示例：

import numpy as np

class FullyConnectedLayer:
    def __init__(self, input_size, output_size, activation_function=None):
        self.input_size = input_size
        self.output_size = output_size
        self.activation_function = activation_function
        
        # 初始化权重矩阵和偏置向量
        self.W = np.random.randn(output_size, input_size)
        self.b = np.random.randn(output_size, 1)
        
    def forward(self, x):
        # 计算全连接层的前向计算结果
        z = np.dot(self.W, x) + self.b
        
        # 应用激活函数（如果有的话）
        if self.activation_function is not None:
            a = self.activation_function.forward(z)
        else:
            a = z
        
        return a

在这个示例代码中，我们定义了一个名为 FullyConnectedLayer 的类，表示全连接层。这个类包含了三个成员变量：输入维度 input_size、输出维度 output_size 和激活函数 activation_function。在初始化时，我们随机初始化了权重矩阵 W 和偏置向量 b。在前向计算时，我们首先进行矩阵乘法和加法操作，然后根据是否有激活函数，决定是否对结果进行激活。

下面我们给出一个示例，演示如何使用这个全连接层：

import numpy as np

# 定义 sigmoid 激活函数
class SigmoidActivation:
    def forward(self, x):
        return 1.0 / (1.0 + np.exp(-x))

# 创建一个全连接层，输入维度为 2，输出维度为 3，激活函数为 sigmoid
fc = FullyConnectedLayer(input_size=2, output_size=3, activation_function=SigmoidActivation())

# 构造一个输入向量
x = np.array([1, 2]).reshape((2, 1))

# 对输入向量进行前向计算
y = fc.forward(x)

# 打印输出结果
print(y)

在这个示例中，我们首先定义了一个名为 SigmoidActivation 的类，表示 sigmoid 激活函数。然后我们创建了一个全连接层，输入维度为 2，输出维度为 3，激活函数为 sigmoid。接着，我们构造了一个输入向量 x，并对其进行前向计算。最后，我们打印出了计算结果。

需要注意的是，这个示例中我们使用了 numpy 库来实现矩阵乘法和加法操作。实际上，如果你想要更加深入地学习神经网络的实现原理，可以考虑手动实现这些操作，以加深对数学原理的理解。

总之，全连接层是神经网络的重要组成部分，它负责将输入数据映射到输出空间，并通过非线性激活函数实现复杂的函数拟合。在实际应用中，我们通常会将多个全连接层串联起来，构成深度神经网络，以实现更为复杂的任务。

转载自:https://juejin.cn/post/7226629485369557048