Feb, 2024

导航幻觉用于非故意活动的推理

TL;DR我们提出了理解视频中无意识人类活动的新任务,并将此问题形式化为零样本情况下的推理任务,我们通过评估当前最先进的大型多模型在这个推理任务上的效果发现它们存在幻觉问题,因此我们提出了一种名为 Dream of Thoughts(DoT)的新型提示技术,它允许模型在幻觉的思维中导航以实现更好的推理,为了评估模型在该任务上的性能,我们还引入了三个不同的专门度量模型推理能力的指标,通过在两个不同数据集 OOPs 和 UCF-Crimes 上进行实验,我们的研究结果表明 DoT 提示技术能够在最小化幻觉的同时优于标准提示方式。