明星脸花鸟都不是问题微软中科大联合推出细

2019-04-11 10:22:55 来源: 阿里信息港

雷锋 AI 科技评论按:近推出的几个计算机视觉领域中的突破性论文在图像合成领域展示了新的可能,他们能够创造非常自然的图像,并且合成无比真实甚至同时保持面部信息的人脸图像。论文《CVAE-GAN:一种通过非对称训练的细粒图像生成模型》就是其中之一香蕉批发
,它是由微软和中国科学技术大学的研究团队在威尼斯举办的 ICCV 2017 上展示的一种方法,它是一种基于变分自动编码器生成对抗络的图像生成模型,能够在特定细粒类别中合成自然图像。特定细粒度的类别包括特定的人脸,如名人或者真实世界的物体,如特定类型的花或者鸟。雷锋(公众号:雷锋) AI 科技评论根据微软研究院博客简单介绍如下。

图中都是生成的图像。不仅逼真,而且每类图像中也有一定的差异。新的建模方法带来新的表现微软研究院的 Dong Chen、Fang Wen 和 Gang Hua,微软研究院实习生 Jianmin Bao 以及中国科学技术大学的李厚强教授一直在研究如何构建更好有效的自然图像生成模型。在计算机视觉领域存在一个关键问题:如何通过改变与世界上任何图片自然分布相关的有限数量的隐变量,来生成多样化且逼真的图像。该问题的挑战主要在于找到一个生成模型能够捕捉到这些数据的分布。他们选择使用生成对抗络与变分自动编码器相结合的方法作为学习框架。该方法将任何图像建模为概率模型中标签和隐属性的组合。通过改变输入生成模型细粒类别的标签(比如,特定的鸟的类别,如金莺或者八哥,或者特定人的人脸),该团队能够使用根据随机抽取的隐变量的值合成属于该类别的图像。微软雷蒙德研究院首席研究员Gang Hua解释说:「直到近,才有深度学习模型能够从真实世界的图像中对某类物体的图像分布建模,使得我们能够从模型中得到基本的图像合成方式。」

首席研究员 Gang Hua 表示,该方法有两个新颖的方面:首先,对于判别络即分类器,使用了交叉熵损失函数进行训练,但是对于生成络,使用了平均差值目标函数(mean discrepancy objective)。由此产生的非对称损失函数及其对机器学习方面的影响很激动人心。非对称损失实际上使得 GAN 的训练变得更加稳定,这种非对称损失函数能够解决训练原始 GAN 中的不稳定的问题,尤其是能够解决匹配两个不重叠分布时遇到的数值难题。

另一个创新在于采用了一种新颖的编码器结构,它能够学习到隐空间之间的关系,并使用成对的特征匹配了保留合成图像的结构信息。

在自然图像的实验中,在自然界中的真实图片,如人脸,花朵和鸟类等,研究人员展示了他们的机器学习模型在某个特定的类别中,能够合成非常真实且多样性的图像。该模型的潜在应用方向覆盖了包括图像修复,数据增强,和更好的人脸识别模型等所有方面。

该技术解决了图像生成中的基本挑战,即个体因素的可控制性问题。这使得该模型能够生成我们想要的样子的图片。

合成人脸如何利用这个能力将合成花或者鸟的的图片变得更加真实?以人脸为例,在包含个体身份信息的上下文的情况下先冠批发网
,人脸是自然中能够捕捉到的复杂的图像。在本月盐湖城举办的 CVPR 2018的「面向开放式身份的保持人脸合成」(Toward Open-Set Identity preserving Face Synthesis)任务中,研究人员开发了一个基于 GAN 的框架,可以解耦人脸的身份信息和属性信息,其中属性包含诸如鼻子和嘴的形状甚至年龄,以及环境因素,比如光线状况航空托运公司
,脸上是否有化妆等等。之前的保持身份人脸合成方法的主要局限在于只能合成包含在训练集中的已知身份人脸,但是现在研究人员开发了一种在开放集中也能保持身份的人脸合成方法,也就是说,能够合成训练集外的人脸。为了能够做到这一点,他们使用了一种独特的方法,对于输入图片,先生成一个身份向量,将该身份向量与其他人脸图像(不是同一个人的人脸图像)结合,提取一个特征向量,例如姿势,情绪或者光线状况等。接下来,将身份向量和特征向量结合到一起,生成一张新的人脸图片。值得注意的是,该框架无须以任何方式标注或者分类任何面部属性。它使用非对称损失函数以更好的保持身份信息,并能够稳定机器学习的训练过程。它还可以有效地利用大量未标记的人脸图像进行训练(可以被看作是随机的面部图像),以进一步增强合成人脸的真实度和准确性。

人脸生成任务中,保持身份特征同时的属性迁移结果一个有趣的应用方向:「茄子!」该模型有一个有趣的应用方向,就是摄影师为几十个人拍一张合照,想要一张照片里几十个人都是笑着的瞬间是很难捕捉到的。使用该模型就能够让每个人都是微笑的,这跟单纯的图像是完全不同的,因为每一个微笑的脸都是合成的,都是并没有在这个世界上发生过的,但是每个人的脸部真实身份得到了保留,这个面孔就是属于这个人的,身份信息在改变图像的过程中被保留了下来。

该模型的许多种可能的应用都会是有益于社会的,并且在图像识别,视频理解甚至艺术方向都有着不断的进步。

论文地址:

via Microsoft Research Blog,雷锋 AI 科技评论编译

本文标签: