Jul, 2024

评估视觉叙事需要更多的评测指标

TL;DR通过引入一种新的方法来衡量以人类相似性为基础的三个关键方面(视觉联系、连贯性和重复性),从而提高故事质量。此方法用于评估由多个模型生成的故事,结果表明,基础模型 LLaVA 获得最佳结果,但与 TAPM 相比,后者是一个参数更少的视觉叙事模型。通过提升 TAPM 的视觉和语言组件,可以实现具有相对较低参数数量的竞争性性能。最后,我们进行了人类评估研究,结果表明,“好” 的故事可能需要超越人类的视觉联系、连贯性和重复性水平。