文自己脸分解指的是基于一个或多个文本形容,生成实在人造的人脸图像,并尽或者保障生成的图像合乎对应文本形容,可以用于人机交互,艺术图像生成,以及依据受益者形容生成立功嫌疑人画像等。针对这个疑问,中科院智能化所联结北边电子设施钻研所提出了一种基于多输入的文自己脸分解方法(SEA-T2F),并树立了第一个手工标注的大规模人脸文本形容数据集(CelebAText-HQ)。该方法初次成功多个文本输入的人脸分解,与单输入的算法相比生成的图像愈加凑近实在人脸。关系成绩论文《Multi-caption Text-to-Face Synthesis:>
图1 不同方法的文本到人脸图像生成结果
相较于文本到人造图像的生成,文本到人脸生成是一个更具应战性的义务,一方面,人脸具备愈加细密的纹理和含糊的特色,难以树立人脸图像与人造言语的映射,另一方面,关系数据集要么是规模太小,要么间接基于属性标签用网络生成,目前为止,还没有大规模手工标注的人脸文本形容数据集,极大地限度了该畛域的开展。此外,目前基于文本的人脸生成方法[1,2,3,4]都是基于一个文本输入,但一个文本无余以形容复杂的人脸特色,更关键的是,因为文本形容的客观性,不同人关于同一张图片的形容或者会相互抵触,因此基于多个文本形容的人脸生成具备很严重的钻研意义。
针对该疑问,团队提出了一个基于多输入的文自己脸生成算法。算法驳回三阶段的生成反抗网络框架,以随机采样的高斯噪声作为输入,来自不同文本的句子特色经过SFIM模块嵌入到网络当中,在网络的第二第三阶段区分引入了AMC模块,将不同文本形容的单词特色与两边图像特色经过留意力机制启动融合,以生成愈加细密度的特色。为了更好地在文本中学习属性消息,团队设计了一个属性分类器,并引入属性分类损失来优化网络参数。
图2 模型框架示用意
此外,团队初次树立了一个大规模手工标注数据集,首先在CelebAMask-HQ数据集中挑选了15010张图片,每个图片区分由十个上班人员手工标注十个文本形容,十个形容依照由粗到细的顺序区分形容人脸的不同部位。
团队对提出的方法启动了定性和定量剖析[5,6],试验结果标明,该方法不只能生成高品质的图像,并且愈加合乎文本形容。
图3 不同方法比拟结果
图4 不同数量输入的生成结果
表1 不同方法的定量比拟结果
表2 消融试验结果:前三行区分表示网络去除SFIM,AMC,和属性分类损失。
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://clwxseo.com/wangluoyouhua/8025.html