评估视觉叙事需要更多的评测指标

Jul, 2024

评估视觉叙事需要更多的评测指标

Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition

PDF

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle

TL;DR通过引入一种新的方法来衡量以人类相似性为基础的三个关键方面（视觉联系、连贯性和重复性），从而提高故事质量。此方法用于评估由多个模型生成的故事，结果表明，基础模型 LLaVA 获得最佳结果，但与 TAPM 相比，后者是一个参数更少的视觉叙事模型。通过提升 TAPM 的视觉和语言组件，可以实现具有相对较低参数数量的竞争性性能。最后，我们进行了人类评估研究，结果表明，“好” 的故事可能需要超越人类的视觉联系、连贯性和重复性水平。

Abstract

visual storytelling consists in generating a natural language story given a temporally ordered sequence of images. This task is not only challenging for models, but also very difficult to evaluate with automatic metrics since there is no consensus about what makes a story 'good'. In th

visual storytelling story quality human likeness visual grounding coherence

发现论文，激发创造

RoViST：学习视觉叙事的鲁棒度量

本文提出了三种评估指标集，分别是视觉定位，连贯性和非冗余性，以便更好地评估生成故事的机器模型。通过分析添加的评估指标集与人类判断分数之间的相关性，我们表明我们的度量衡比其他衡量标准更好。这种度量衡可以作为一种基于学习的评估指标，是现有基于规则的指标的补充。

May, 2022

视觉叙事的优秀元素？：设计复合奖励

论文重新审视了故事叙述的优化问题并提出了基于相关性，连贯性和表达性的三个评估标准。为此，提出了一个基于强化学习的框架，ReCo-RL，并在 Visual Storytelling 数据集上进行了实验验证其优越性。

Sep, 2019

问题 - 答案计划的视觉叙事

将图像序列转化为可解释的视觉前缀，结合预训练语言模型和规划，利用问题 - 答案对作为蓝图计划选择显著的视觉概念，并确定它们如何组织成故事，生成更连贯、有趣和自然的故事。

Oct, 2023

多模态大型语言模型改进视觉叙述

借助大型语言模型和大型视觉语言模型的指导调整，本文提出了一种新颖方法来解决视觉故事生成中的困难，通过组合图像和叙述来创造具有吸引力和丰富上下文的故事，实验结果表明，本方法在叙述连贯性、相关性、情感深度和总体质量等方面明显优于现有模型，凸显了指导调整和大型语言模型 / 视觉语言模型在推进视觉故事的潜力。

Jul, 2024

通过语义一致性提升视觉故事的生成和评估

研究了一种生成序列图像以可视化故事的任务，提出了改进方法包括双路学习框架、复制 - 转换机制和基于 MART 的 transformer 模型，并提供了相应的评价指标和对这些指标的直观检验。

May, 2021

GROOViST：一种视觉叙事中对物体进行定位的度量

该论文提出了一种评估图像序列生成的故事质量的方法，并针对视觉扎根度进行了分析和度量，提出了一种模块化设计的评估工具 GROOViST，该工具考虑了跨模态依赖、时间错位以及人类感知对视觉扎根度的影响。

Oct, 2023

情节设计和改写：为视觉叙事建模

本文介绍了 PR-VIST 框架，将输入的图像序列表示为故事图，找到形成故事情节的最佳路径，并通过迭代训练过程来生成最终故事，该框架根据自动和人工语法而言有更好的多样性、连贯性和人性化表现，削减研究表明描绘和重塑都对模型的优越性做出了贡献。

May, 2021

通过故事讲述栩栩如生的故事：一个富有表达力和流畅的多模式讲故事者

基于图像流生成合理和生动的故事情节的多模态的人类水平故事生成方法 LLaMS 通过充分利用 LLM 中的常识知识，首先采用序列数据自动增强策略来增强实际内容表达，并利用文本推理架构进行表达性故事生成和预测；其次，我们提出故事插图生成的 SQ-Adapter 模块来保持序列一致性。通过人工评估验证了 LLaMS 提出方法的优越性，与之前的 SOTA 方法相比具有最先进的故事性能，具有 86% 的相关性和 100% 的一致性胜率。此外，还进行了消融实验以验证所提出的序列数据增强和 SQ-Adapter 的有效性。

Mar, 2024

保持一致性：通过迭代多智能体通信从图像流中进行主题感知的故事叙述

本研究提出了一种新的视觉叙述方法，引入话题描述任务来检测图像流的全局语义背景，并通过多代理通信框架将话题描述生成器与故事生成器合并学习，实验结果表明该方法在生成故事方面具有比现有方法更高的质量。

Nov, 2019

TARN-VIST: 面向视觉叙事的主题感知强化网络

通过使用主题感知的增强学习网络，我们提出了一种新的方法来生成更连贯和相关的视觉叙事故事。实验结果表明，我们的模型在多个评估指标上优于大多数竞争模型。

Mar, 2024