Mar, 2024

卡通幻觉检测:姿势感知上下文视觉学习

TL;DR使用大规模文本到图像模型生成训练数据在各种生成领域已经成为一种常见方法;然而,特别是在卡通角色等非逼真风格中,仍然存在感知上的关键缺陷的视觉幻觉问题;我们提出了一种针对由文本到图像模型生成的卡通角色图像的新型视觉幻觉检测系统;我们的方法利用了使用RGB图像和姿势信息的姿势感知上下文视觉学习(PA-ICVL)和视觉语言模型(VLMs),通过引入来自微调的姿势估计的姿势指导,使得VLMs能够做出更准确的决策;实验结果表明,与仅依赖于RGB图像的基准方法相比,我们在识别视觉幻觉方面取得了显著的改进;本研究通过减轻视觉幻觉问题,推动了文本到图像模型的发展,扩大了其在非逼真领域的潜力。