论文笔记-Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition

2021年11月24日 阅读数:7
这篇文章主要向大家介绍论文笔记-Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

摘要

面部属性识别是一个重要而又富有挑战性的研究课题。 与之前大多数仅基于整幅图像预测属性的方法不一样,本文利用面部部分位置来更好地进行属性预测。 介绍一种包含局部脸部和脸部纹理信息的脸部抽象图像。 该抽象图像由生成敌对网络(GAN)生成。 而后创建一个双路径人脸属性识别网络,利用原始人脸图像和面部抽象图像的特征。 经验上,面部抽象图像的特征与原始面部图像的特征是互补的。 随着抽象图像定位的面部部分,咱们的方法改善了面部属性识别,特别是位于小面部区域的属性。 对CelebA和LFWA基准数据集进行的大量评估显示,能够实现最早进的性能。算法

link

@article{heharnessing,
  title={Harnessing Synthesized Abstraction Images to Improve Facial Attribute Recognition},
  author={He, Keke and Fu, Yanwei and Zhang, Wuhao and Wang, Chengjie and Jiang, Yu-Gang and Huang, Feiyue and Xue, Xiangyang}
}

标签

face alignment网络

笔记

目标是学习能够预测人脸图像属性存在的属性分类器。 主要贡献是提出一种利用合成抽象图像来帮助改善面部属性识别的系统方法。框架

  1. 利用GAN模型生成包含部位和文本信息的面部抽象图像。
  2. 用一种dual-path网络,将合成的抽象图像和原始图像结合起来,以帮助进行属性识别。
  3. 证实了在抽象图像的帮助下能够改善属性识别。
  4. 原始人脸图像和抽象图像配对做为网络的输入,这两种图像分别转到两个子网去训练

论文里面用了GAN,以前接触的比较少,为了看懂论文,我也了解了一下相关的知识。性能

论文用到的pix2pixHD,我去了解了一下提出的背景:pix2pixHD是pix2pix的改进版本,使用多由粗到精的G网络和多尺度D网络。使用缘由:pix2pix合成更高分辨率的图片有缺陷,效果很差,训练也很不稳定。对G和D进行了改进。学习

翻译

Introduction

面部属性识别在过去的几十年里受到了普遍的研究关注。面部属性用于描述面部图像的人物特征。学习预测面部属性不只能够用做其余学习任务的中间表示,例如人脸识别[Wang et al。,2017b; Hu等人,2017],并且直接用于真实世界的应用,如人脸检索[Siddiquie et al。,2011]和智能零售。例如,分析面部属性能够自动检测商场中客户的年龄和性别,从而帮助这些商业代理积累和理解客户风格的大数据。测试

学习面部属性识别的鲁棒模型很是具备挑战性,主要是因为解析输入人脸图像的困难。具体地说,输入的人脸图像可能包含很是嘈杂和动态的背景,例如购物中心的场景。这种背景信息可能会对脸部属性的识别过程产生负面影响。此外,大多数类型的面部属性(例如,眼镜或拱形眉毛)能够定位于面部的某些特定区域。例如,“戴帽子”属性大多对应于人脸的头发部分,而不须要来自图像的其余部分的信息,好比说嘴巴。分离局部区域以学习每种类型的属性能够帮助识别面部属性。大数据

为了直接解析人脸的局部部分,之前的做品要么使用地标经过边界框来裁剪人脸区域[Kumar et al。,2009],要么直接将人脸图像分割成面部部分[Kalayeh et al。,2017]。前一种方法可能包括不须要的部分。例如,若是使用边界框来裁剪头发部分,那么若是人的头发长的话,它可能裁剪整个脸部区域。后者可能会致使纹理信息的细节丢失。这些详细信息对面部属性识别来讲很是重要。相比之下,本文用面部抽象任务“隔离”预测面部属性的重要因素。咱们的目标是从原始人脸图像生成抽象的人脸区域,能够去除无用的背景,但仍包含人脸部分位置信息。ui

面部抽象任务受面部分割任务的启发,该任务将面部图像分析为有意义的面部部分。关键区别在于咱们的面部抽象任务将要求解析算法尽量多地从原始图像保存纹理信息。本质上,面部抽象过程能够经过最近的生成对抗网络(GAN)模型[Goodfellow等,2014]来实现。在得到合成的面部抽象图像后,原始图像和抽象图像被馈送到包含原始图像子网和抽象图像子网的双路径网络中。为了进一步利用来自抽象子网的信息,抽象子网的特征映射被传递给原始图像子网。最后,将这两个特征链接起来用于最终的属性识别。咱们的属性识别网络是以端对端的方式进行培训的。咱们评估了咱们提出的基准框架,包括CelebA [Liu et al。,2015b],LFWA [Huang et al。,2007;刘等人,2015年b]面对属性数据集和实验结果显着优于最早进的替代品。编码

总之,咱们的主要贡献是提出一种利用合成抽象图像来帮助改善面部属性识别的系统方法。具体来讲,(1)据咱们所知,咱们第一次利用GAN模型生成包含部分位置和文本信息的面部抽象图像。 (2)咱们首先提出了一个双路径网络来合成抽象图像和原始图像以帮助属性识别。 (3)咱们代表,在抽象图像的帮助下,属性识别能够获得改进。咱们在两个基准数据集上评估框架,实验结果验证了咱们方法的有效性。spa

Related Work

面部属性识别 就独特的学习范式而言,面部属性识别能够分为两类:基于部分的和总体的方法。对于基于零件的方法,它包含一个与属性相关的零件检测器,而后提取局部面部器官上的特征。 [Kumar等人,2009]采用手工特征来解析预约义的面部部分,以促进训练SVM用于面部属性识别。 [Zhang等人,2014]采用poselets [Bourdev等人,2011]来检测身体部位以提取局部化部分的卷积神经网络(CNN)特征。

另外一方面,各类深度多任务体系结构[Liu et al。,2015b; Rudd等,2016; Lu等人,2017; Han等,2017]对面部属性识别进行了总体学习。与以前的全部方法相比,GAN模型在咱们的框架中被学习,以解析面部部分以更好地帮助属性预测。 [Ding等人,2017]设计了一个弱监督的人脸区域感知网络来自动检测人脸区域,而咱们学习了一个GAN来获取零件的位置。

[Kalayeh等,2017]采用语义分割来改善面部属性预测;相反,咱们利用合成的抽象图像。具体来讲,(1)产生分割/抽象的不一样框架:[Kalayeh等,2017]采用编码器 - 解码器来产生分割,而不是在咱们的框架中由GAN产生的合成抽象图像。 (2)使用分割/抽象进行预测的不一样方式。在[Kalayeh等人,2017]中使用分割图像做为掩模来集中/选通用于预测的激活(特征)。相比之下,咱们合成的抽象图像直接用于训练用于属性预测的网络。最重要的是,合成图像训练的网络与其余基线相比能够得到相对有竞争力的结果,如表一、三、四、5所示。

面部分割和面部修复 人脸分割也称为人脸分析。它为人脸图像中的每一个像素提供语义类标签,从而将输入人脸图像分割为语义区域,例如头发,眼睛和鼻子以供进一步分析。研究人员已经开发了几种基于条件随机场(CRF)的样本分割方法,示例[Smith et al。,2013]和深度神经网络[Liu et al。,2015a]。对于基于范例的方法,[Smith等人,2013]提出了一种基于以注册的示例图像以像素方式将标记掩模转移到测试图像的方法。对于基于深度神经网络的方法,[Luo et al。,2012]基于深层次特征和分别训练的模型开发了深度解析框架。 [Liu等人,2015a]提出了一个多目标深度网络,能够联合学习像素似然性和成对标签依赖性。一样,面部修补是指以太阳镜和手部无缝方式修改面部图像的部分遮挡技术。早期尝试修复是由[Mo等人],经过几个面部图像的线性组合来重建一个面部的遮挡区域。最近,[Jampour等人,2017]引入了数据驱动的方法,其使用推断的高级面部属性,例如性别,种族和表达。有一些方法使用生成模型进行修补[Pathak等,2016; Yeh等,2017]。 [Yeh等,2017]提出了一种方法,经过搜索潜像歧义中最接近的已损坏图像编码,学习如何生成缺失的内容。与面部分割和面部修复任务不一样,咱们的面部抽象任务不只生成面部部分,还包含大量文本信息。

生成的结果基本上是从大量的训练数据中学习和抽象出来的。 所以,抽象的图像结果不只基于输入图像,还受到与输入图像大部分类似的图像的影响。