Jun, 2024

ReXTime: 视频跨时间推理的基准套件

TL;DRReXTime 是一个基准测试,旨在严格测试 AI 模型在视频事件中执行时间推理的能力。它专注于跨时间的推理,即当问题及其相应答案发生在不同的视频片段时的人类理解。我们介绍了一个自动化流程,用于生成时间推理问题 - 答案对,大大减少了对手工注释的需求。评估结果显示,虽然前沿的大型语言模型优于学术模型,但它们仍然落后于人类表现,存在 14.3%的显著准确性差距。此外,我们的流程还创建了一个培训数据集,包含 9,695 个机器生成的样本,无需人工工作,经验研究表明这可以通过微调提升跨时间推理能力。