M2K-VDG: 模型自适应多模态知识锚定增强的视频驱动对话生成

Feb, 2024

M2K-VDG: 模型自适应多模态知识锚定增强的视频驱动对话生成

M2K-VDG: Model-Adaptive Multimodal Knowledge Anchor Enhanced Video-grounded Dialogue Generation

Hongcheng Liu, Pingjie Wang, Yu Wang, Yanfeng Wang

TL;DR通过计算困惑度，我们揭示了不同的视频对话生成（VDG）模型经历了不同的幻觉，并展示了多样的锚点标记。基于这一观察，我们提出了一种模型适应性的多模态知识锚点增强框架 M2K-VDG，用于减少幻觉产生。进一步，我们引入了反事实效应以更准确地检测锚点标记。在三个流行的基准测试上的实验结果显示，我们的方法优于现有方法，证明了它在减少幻觉方面的有效性。

Abstract

video-grounded dialogue generation (VDG) requires the system to generate a fluent and accurate answer based on multimodal knowledge. However, the difficulty in →

video-grounded dialogue generation multimodal knowledge hallucination reduction m2k-vdg anchor tokens

发现论文，激发创造

基于信息论的视频对话文本幻觉减少

该研究设计了一种文本幻觉缓解框架（THAM），并通过当前的对话系统运用该框架验证了其在基准测试（即 AVSD @ DSTC7 和 AVSD @ DSTC8）上对 Video-grounded 对话的有效性和提高的解释性。

Dec, 2022

多模态图像幻觉控制：视觉信息的连接

通过引入 M3ID 多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强，能够减少幻觉并提高模型的依赖性，从而减少视觉无依据的回答。

Mar, 2024

基于知识的多模态搜索对话代理

本研究通过学习 MMD 数据集并实现基于知识库的多模态对话模型解决了多模态基于搜索的对话系统中的新挑战，该模型将编码的知识库表示附加到解码器输入中，从而在文本相似性测量方面获得了高于强基线的表现，其中三个 BLEU 点仅由于使用了来自知识库的附加信息。

Oct, 2018

用于端到端视频对话系统的多模态 Transformer 网络

本研究提出了一种使用多模态转换网络（MTN）来编码和整合不同模态信息的视频对话系统。在对话生成过程中，我们提出了一个训练程序来模拟标记级解码，从而提高了生成响应的质量。我们在 DSTC7 上获得了最优秀的表现，并且我们的模型具有很好的泛化性能。

Jul, 2019

减轻知识驱动对话生成中的幻觉的因果观察

本文通过反事实推理方法分析了幻觉问题背后的因果关系，提出了一种可能的解决方案，即通过利用对话 - 知识交互来减轻幻觉，在不影响对话性能的同时适应不同的生成模型。希望我们的努力能够支持并呼吁更多重视开发轻量级技术以实现强大可靠的对话系统。

Apr, 2024

多模态增量变压器结合视觉定位生成视觉对话

该研究提出了一种多模态增量变形器（MITVG）的视觉指向方法，该方法可以显式地定位与文本实体相关的图像对象，从而帮助模型排除不需要关注的视觉内容，进而在多轮对话历史记录和视觉场景的基础上生成一致且连贯的响应。该模型在 VisDial v0.9 和 v1.0 数据集上实验结果证明了其优越性能。

Sep, 2021

双重知识增强生成预训练语言模型的多模态对话系统

本文提出了一个可以双重增强知识的生成式语言模型，用于为多模态任务导向式对话系统生成适当的文本响应。实验证明，该模型优于现有竞争对手。

Jul, 2022

对话系统中事实幻觉模式的深入探究

该研究通过人工反馈分析，提出了一种针对知识图谱 (Knowledge Graph) 聊天机器人中存在的事实幻觉问题的实体级幻觉检测系统，并创建了 FADE 合成数据集，用于与已建立的基准进行比较。

Jan, 2023

视频对话生成中的多模态语义图协同推理

本文研究了基于视频对话生成，提出一种方法，可以将视频数据集成到预训练语言模型中，通过多模态推理实现各种模态之间的互补信息，实验结果表明，该模型能够在自动和人工评估方面显著优于现有的最先进模型。

Oct, 2022

VDGD：通过弥合视觉感知差距来减轻认知提示中的低可信度语言幻觉

对大型视觉语言模型（LVLMs）的幻觉问题进行了深入分析，发现了几个新的洞察力，提出了一种简单、稳健和无需训练的方法（VDGD）来减轻幻觉，实验结果表明 VDGD 在减少幻觉方面显著优于其他基线方法。

May, 2024