移动端人脸风格化技术的应用-开源中国

本文介绍了人脸风格化技术的整个流程，以及该技术在直播、短视频等场景下的应用。该技术可作为氛围营造、提高观感的有效手段，也可在买家秀等图文场景下起到人脸隐私保护、增添乐趣等作用。

前言

随着元宇宙、数字人、虚拟形象等概念的爆发，各种数字化协同互动的泛娱乐应用也在不断的落地。例如，在一些游戏中，玩家成为虚拟艺人参与到高还原度的现实艺人日常工作中，并会在特定情况下，与虚拟艺人在人脸表情等层面上形成强映射提升参与感。而由阿里巴巴天猫推出的超写实数字人AYAYI和井柏然联合“带逛”的杂志《MO Magazine》，则打破传统的平面阅读体验，以虚实结合的形式让读者获得沉浸式体验。

而在这些泛娱乐应用场景中，“人”必然是首要考虑的一步。而人工设计的数字、动画形象，存在过于“抽象”、代价高昂、缺乏个性化等问题。因此在人脸数字化上，我们通过研发具有良好控制感、ID感、风格化程度的人脸风格化技术，实现风格定制化的人脸形象切换。该项技术不仅可以在直播、短视频等娱乐消费场景下作为氛围营造、提高观感的有效手段，也可在买家秀等图文场景下起到人脸隐私保护、增添乐趣等作用。更进一步的想象，若不同的用户聚集在某个数字社区内，用该社区风格的数字形象聊天社交（例如“双城之战吧”的用户在元宇宙内用双城之战风格化形象友好交流），那是多具有代入感的事情。

双城之战动画

左图为原始AYAYI的形象，右图为风格化后的形象。

而为了将人脸风格化这项技术落地到我们的直播、买家秀、卖家秀等不同的泛娱乐业务场景，我们做到了：

低成本生产不同人脸风格化编辑的模型（本文所展示的所有效果均在没有任何设计资源的投入下实现的）；
适当进行风格编辑以配合设计、产品、运营进行风格选型；
能够在人脸ID感和风格化程度之间做倾斜与平衡；
保证模型的泛化性，以适用于不同的人脸、角度、场景环境；
在保证清晰度等效果的前提下，降低模型对算力的要求。

接下来，我们先看一下demo，然后再介绍我们整个技术流程：感谢我们的产品mm——多菲~

整体方案

我们的整体算法方案采用三个阶段：

阶段一：基于StyleGAN的风格化数据生成；
阶段二：非监督图像翻译生成配对图像；
阶段三：使用配对图像进行移动端有监督图像翻译模型的训练。

人脸风格化编辑整体算法方案

当然，也可以用二阶段方案：StyleGAN制作pair图像对，然后直接训练有监督小模型。但增加非监督图像翻译阶段，可以将风格化数据生产和配对图像数据制作两个任务解耦开来，通过对阶段内算法、阶段间数据的优化改进，结合移动端有监督小模型训练，最终解决低成本的风格化模型生产、风格的编辑及选型、ID感及风格化的倾斜、部署模型的轻量化等问题。

基于StyleGAN的数据生成

使用StyleGAN算法进行数据生成的工作上，主要针对3个问题的解决：

提升模型的生成数据丰富度和风格化程度：例如生成CG脸更像CG，且各个角度、表情、发型等形象更丰富；
提升数据生成效率：生成的数据良率高、分布更加可控；
风格编辑及选型：例如修改CG脸的眼睛大小。

下面我们针对这三方面展开。

▐ 丰富度和风格化

基于StyleGAN2-ADA的迁移学习遇到的第一个重要问题就是：模型的丰富度和模型的风格化程度之间的trade-off。使用训练集进行迁移学习时，受训练集数据的丰富度影响，迁移后的模型在人脸表情、人脸角度、人脸元素等方面的丰富度也会受损；同时，随着迁移训练的迭代代数增加、模型风格化程度/FID的提升，模型丰富度也会越低。这会使得后续应用模型生成的风格化数据集分布过于单调，不利于U-GAT-IT的训练。

为了提升模型的丰富度，我们进行了如下改进：

调整、优化训练数据集的数据分布；
模型融合：因为源模型在大量数据上进行训练，所以源模型的生成空间具有非常高的丰富度；如果将迁移模型低分辨率层的权重替换为源模型对应层权重得到融合模型，则可使得新模型的生成图像在大的元素/特征上的分布与源模型一致，从而在低分辨率特征上获得与源模型一致的丰富度；

移动端人脸风格化技术的应用

▐ 丰富度和风格化

参与评论

评论留言

还没有评论留言，赶紧来抢楼吧~~

给这篇文章打个标签吧~