Oct, 2023

TOSS:基于单张图像的高质量文本引导的新视角合成

TL;DR本文介绍了 TOSS,它利用文本信息将单一 RGB 图像转化为创新视角合成(NVS)的任务。TOSS 通过使用文本作为高级语义信息来约束 NVS 的解空间,利用特定于图像和相机姿态的模块进行训练,并引入了针对姿态正确性和精细细节保留的专门训练。实验结果表明,我们提出的 TOSS 在可信度、可控性和多视图一致性方面优于 Zero-1-to-3,并通过全面的剖析验证了引入的语义指导和架构设计的有效性和潜力。