【传知代码】图像风格迁移技术（论文复现）

站长

2024年06月07日 11:29 · 阅读数 49

前言：当提到图像风格迁移技术，我们不禁会想起那些令人叹为观止的艺术作品，它们将著名画家的独特风格与现实世界的图像相结合，创造出一种全新的视觉体验。这项技术引领着计算机视觉和人工智能的交汇，让我们能够以前所未有的方式重新诠释图像和艺术的边界。

本文将探索图像风格迁移技术的原理、应用和挑战。我们将深入了解其背后的算法和模型，并展示一些令人惊叹的实际案例。无论你是对计算机视觉感兴趣，还是对艺术创作有热情，本文都将为你揭开图像风格迁移技术的神秘面纱，带你进入一个充满创造力和想象力的全新世界。

本文所涉及所有资源均在传知代码平台可获取

概述

图像风格迁移是指将一张图像的内容与另一张图像的风格相融合，生成具有新风格的图像，风格（style）是指图像中不同空间尺度的纹理、颜色和视觉图案，内容（content）是指图像的高级宏观结构。风格迁移这一想法与纹理生成的想法密切相关，在 2015 年开发出神经风格迁移之前，这一想法就已经在图像处理领域有着悠久的历史。但事实证明，与之前经典的计算机视觉技术实现相比，基于深度学习的风格迁移实现得到的结果是无与伦比的，并且还在计算机视觉的创造性应用中引发了惊人的复兴。风格迁移其主要应用场景如在艺术创作场景，将不同艺术风格应用于图像，可以创造出独特的艺术效果，使作品具有新的视觉呈现。或者在社交平台上风格化滤镜，图像增强等。

【传知代码】图像风格迁移技术（论文复现）

风格表示：我们需要让输出的目标图像既符合原始图像和目标风格，就需要内容和风格进行表示。在深度学习实现上，我们需要确定我们的的目标是什么，就是保存原始图像的内容，同时采用参考图像的风格。那么就有一个适当的损失函数将对其进行最小化，如下：

【传知代码】图像风格迁移技术（论文复现）

这里的 distance 是一个范数函数（用来衡量向量或矩阵的大小或长度），比如 L2 范数；content 是一个函数，输入一张图像，并计算出其内容的表示；style 是一个函数，输入一张图像，并计算出其风格的表示。将这个损失最小化，会使得 style(generated_image) 接近于 style(reference_image)、content(generated_image) 接近于 content(generated_image)，从而实现我们定义的风格迁移。

在CNN卷积网络进行对象识别任务中，随着层次的加深对象的信息输出更加的明确，较前的层数特征图输出到一些更加通用的结构，比如猫狗分类中的基础边缘线条，而更深的层可以捕捉到更加全局和抽象的结构，如猫耳，猫眼睛。根据这个模式，我们可以通过不同深度的层特征图重建输入图像以可视化层所包含输入图像的信息，如下图可以看到深层的特征图包含了图像中对象的全局排列信息（高级、抽象），但是像素值信息会丢失。浅层的层特征图重建图像几乎是完整的精确像素值。

【传知代码】图像风格迁移技术（论文复现）

这样一来在内容上的损失函数便是在一个预训练模型（需要在大型数据集下训练好的能有效提取特征的模型）同一深的层激活的范式数，这样至少在深的层看来，二者图像的内容是一致的。

同样的，不同深度的层特征图包含了不同空间尺度的输入图像的信息，基于此Gatys等人在每一层特征图中采用格拉姆矩阵（Gram matrix）（描述特征图之间的相关性），即特征值的内积，以在不同空间尺度下提取不同滤波器的特征图之间的相互关系（纹理），得到输入图像的多尺度的纹理信息（不捕获全局排列信息）。如上图层激活所包含的风格信息(颜色和局部排列信息)，abcde图为不同子集的CNN层的风格重建图像的风格，（“conv1 1”（a）、“conv1 1”和“conv2 1”（b）、“conv1 1”、“conv2 1”和“conv3 1”(c)、“conv1 1”、“conv2 1”、“conv3 1”和“conv4 1”(d)、“conv1 1”、“conv2 1”、“conv3 1”、“conv4 1”和“conv5 1”(e)) 这会输出与参考图像风格越来越模式匹配的输出，且会忘记其全局排列信息.通过使输出图像和风格图像在不同尺度的层激活都有相似的相互关系，即不同尺度的纹理都很相同，便可以实现风格的迁移。此外，在风格和内容上我们还需要定义贡献强度，这里我们可以通过损失函数的权重来实现即可通过这两种构建损失函数进行优化，便可以使得模型输出图像符合在深层次中“看到”的图像内容是一致的，不同层中特征图的内部特征相互关系的是相似的以实现目标。

演示效果

原始论文：

【传知代码】图像风格迁移技术（论文复现）

下面是我的头像案例：

【传知代码】图像风格迁移技术（论文复现）

核心代码实现

神经风格迁移流程一般为计算层激活 -> 计算损失函数 -> 梯度下降最优化损失函数：

1）网络层激活：输出目标图像，原始图像，参考图像的层激活输出

2）计算损失函数：通过所求的层激活计算对应的内容和风格损失函数

3）梯度下降优化：通过梯度下降的方式减小损失函数，训练模型参数使得模型能学习到参考图像风格的纹理和保持内容的不变

【传知代码】图像风格迁移技术（论文复现）

具体在实现上来说流程如下：

1）使图像尺寸大小相似(如果差异很大,由于模型中尺度变换会使得风格迁移很麻烦)

2）读取图像, 加载预训练模型,得到层激活

3）根据层激活构建需要最小化的最终损失（需要注意的是在重建图像需要添加总变差损失平滑图像）在图像重建或图像去噪任务中，通常将总变差损失与其他损失函数（如均方误差损失）相结合，通过权衡平滑性和重建准确性。

4）设置梯度下降优化算法(论文所实现的方案为L-BFGS 算法)

5）训练模型

以下为核心代码：

from keras import backend as K

# 获取原始图像和参考风格图像 不变设置为常量
target_image = K.constant(preprocess_image(target_image_path))
style_reference_image = K.constant(preprocess_image(style_reference_image_path))

# 目标生成图像占位符（可变）默认为float32 
combination_image = K.placeholder((1, img_height, img_width, 3))

# 合并为一个批量（这里是为了符合VGG19的批次（3，width，height，3）
input_tensor = K.concatenate([target_image,
                              style_reference_image,
                              combination_image], axis=0)

# 官方文档 https://keras.io/api/applications/vgg/#vgg19-function 
model = vgg19.VGG19(input_tensor=input_tensor,
                    weights='imagenet',
                    include_top=False)
print('Model loaded.')
print(model.summary())

outputs_dict = dict([(layer.name, layer.output) for layer in model.layers])

# 内容格式的层激活
content_layer = 'block5_conv4'
# 风格的CNN层激活
style_layers = ['block1_conv1',
                'block2_conv1',
                'block3_conv1',
                'block4_conv1',
                'block5_conv1']
outputs_dict
from scipy.optimize import fmin_l_bfgs_b
# from scipy.misc import imsavefrom  import 
import time

result_prefix = 'style_transfer_result'
iterations = 10 # 更深的轮次 效果越深（风格迁移越强）

# Run scipy-based optimization (L-BFGS) over the pixels of the generated image
# so as to minimize the neural style loss.
# This is our initial state: the target image.
# Note that `scipy.optimize.fmin_l_bfgs_b` can only process flat vectors.
x = preprocess_image(target_image_path)
x = x.flatten()
for i in range(iterations):
    print('Start of iteration', i)
    start_time = time.time()
    x, min_val, info = fmin_l_bfgs_b(evaluator.loss, x,
                                     fprime=evaluator.grads, maxfun=20)
    print('Current loss value:', min_val)
    # Save current generated image
    img = x.copy().reshape((img_height, img_width, 3))
    img = deprocess_image(img)
    fname = result_prefix + '_at_iteration_%d.png' % i
    keras.preprocessing.image.save_img(fname, img)
    end_time = time.time()
    print('Image saved as', fname)
    print('Iteration %d completed in %ds' % (i, end_time - start_time))

可以通过在线Jupyter notebook代码运行，如下：

1）修改上传图片路径（内容图像和参考风格图像路径）

2）修改损失权重大小比例可实现对应的迁移强度（可选）

3）保存迁移后的图片（可选）

写在最后

回顾整个讨论，我们可以清晰地看到图像风格迁移技术从诞生到成熟的每一步都充满了挑战与创新。从最初的简单滤镜效果，到基于深度学习算法的复杂风格迁移，再到如今能够实时、高质量地进行风格转换的先进技术，这一切都体现了科技发展的速度和力量。

更重要的是，图像风格迁移技术不仅仅是一种技术革新，更是一种文化和艺术的创新。它让我们能够以前所未有的方式重新解读和欣赏艺术作品，将不同风格、不同文化、不同时代的艺术元素融合在一起，创造出全新的视觉体验。这种跨界的融合不仅丰富了我们的视觉文化，也为我们提供了更多的创作灵感和可能性。

详细复现过程的项目源码、数据和预训练好的模型可从该文章下方附件获取。

【传知科技】关注有礼公众号、抖音号、视频号

转载自:https://juejin.cn/post/7371359611289813030