Feb, 2024

M2K-VDG: 模型自适应多模态知识锚定增强的视频驱动对话生成

TL;DR通过计算困惑度,我们揭示了不同的视频对话生成(VDG)模型经历了不同的幻觉,并展示了多样的锚点标记。基于这一观察,我们提出了一种模型适应性的多模态知识锚点增强框架 M2K-VDG,用于减少幻觉产生。进一步,我们引入了反事实效应以更准确地检测锚点标记。在三个流行的基准测试上的实验结果显示,我们的方法优于现有方法,证明了它在减少幻觉方面的有效性。