Aug, 2023

从像素到肖像:口头生成技术与应用的综合调研

TL;DR这篇论文系统地研究了最新的深度学习和计算机视觉技术在逼真说话头部生成方面的方法,将它们分为图像驱动、音频驱动、视频驱动和其他(包括神经辐射场(NeRF)和基于 3D 的方法)四种主要方法,并深入分析每种方法的独特贡献、优势和局限性。此外,还对公开可用的模型进行了全面比较,在推理时间和生成输出的质量等关键方面进行了评估。本文的目标是提供一个清晰而简明的关于当前说话头部生成领域的概述,阐明不同方法之间的关系,并确定未来研究的有希望的方向。这个综述将为对这个快速发展领域感兴趣的研究人员和从业者提供有价值的参考。