极客号(Daydx.com)9月18日 消息:近年来,随着增强现实(AR)技术的崛起,研究人员和消费者对结合AR的智能手机应用表现出了日益增长的兴趣。这种技术允许用户实时生成和修改面部特征,用于短视频、虚拟现实(VR)和游戏等应用。在这方面,基于生成对抗网络(GAN)方法的人脸生成和编辑模型备受欢迎,因为它们不仅轻巧,而且能够保持卓越的图像质量。然而,大多数传统的GAN模型在计算复杂性方面存在严重限制,而且需要大量的训练数据集,同时合乎道德地使用这些模型也是一个重要问题。
为了应对这些挑战,谷歌研究人员开发了MediaPipe FaceStylizer,这是一种高效的解决方案,专门用于少量镜头脸部风格化。这个模型利用了GAN反转技术,将图像转换为潜在编码,然后通过一个适合移动设备的合成网络生成从粗到细粒度的高质量图像。此外,他们还从教师StyleGAN模型中提炼出学生生成器,通过巧妙设计损失函数,并将其与常见的GAN损失函数相结合,创造出一个轻量级模型,能够保持良好的生成质量。MediaPipe还提供了对这一解决方案的开源访问,使用户能够微调生成器,以从一张或多张照片中学习风格。
该技术的关键组成部分是BlazeStyleGAN模型,它包括一个面部生成器和一个面部编码器,用于生成和优化符合特定美学要求的面部。通过使用MobileNet V2核心,面部编码器将输入照片与面部生成器生成的面部关联起来。研究人员还构建了一个面部风格化流程,使用GAN反转编码器和有效的面部生成器模型,用户可以通过几个样本来微调模型,以适应不同的风格需求。
为了训练BlazeStyleGAN,谷歌团队采用了知识蒸馏技术,使用了广泛使用的StyleGAN2作为训练模型。此外,他们引入了多尺度感知损失,以改善图像生成质量。
最终,BlazeStyleGAN能够在移动设备上以实时速度运行,并且在视觉质量上与教师模型非常接近。研究团队还指出,在某些情况下,BlazeStyleGAN可以通过减少教师模型产生的伪影来提高视觉质量。该技术在移动设备上的性能表现也令人印象深刻,可以在绝大多数高端智能手机上实时运行。
谷歌研究团队的MediaPipe FaceStylizer技术为少镜头脸部风格化提供了一种高效的解决方案,使用户能够在移动设备上实时生成高质量的面部图像。这一技术的发布标志着在设备内部生成模型方面的重要进展,为未来的应用和探索提供了更多可能性。
项目网址:https://blog.research.google/2023/09/mediapipe-facestylizer-on-device-real.html
声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。