Jan, 2024

时间洞察增强:减轻多模态大语言模型中的时间幻觉

TL;DR通过提取和利用事件查询和提供的视频中的事件特定信息,我们介绍了一种创新的方法来解决多模态大型语言模型中发生的事件级幻觉问题,重点关注视频内容中的时间理解问题,在Charades-STA数据集上的评估表明,该研究不仅在解决多模态大型语言模型的关键限制方面提供了新的视角,还为在与时间相关的问题上评估多模态大型语言模型提供了一种定量可测量的方法。