多模态大型语言模型改进视觉叙述

Jul, 2024

多模态大型语言模型改进视觉叙述

Improving Visual Storytelling with Multimodal Large Language Models

Xiaochuan Lin, Xiangyong Chen

TL;DR借助大型语言模型和大型视觉语言模型的指导调整，本文提出了一种新颖方法来解决视觉故事生成中的困难，通过组合图像和叙述来创造具有吸引力和丰富上下文的故事，实验结果表明，本方法在叙述连贯性、相关性、情感深度和总体质量等方面明显优于现有模型，凸显了指导调整和大型语言模型/视觉语言模型在推进视觉故事的潜力。

Abstract

visual storytelling is an emerging field that combines images and narratives to create engaging and contextually rich stories. Despite its potential, generating coherent and emotionally resonant visual stories remains challenging due to the complexity of aligning visual and textual inf

发现论文，激发创造

多模式大型语言模型综述

本文旨在追踪和总结MLLM的最新进展，包括MLLM的公式，技术和应用，以及现有的挑战和有前途的研究方向。

Jun, 2023

纯文本训练视觉叙事

利用跨模态预训练的CLIP模型，结合纯文本数据训练的视觉条件故事生成器及不依赖训练的视觉条件规划器，提出了一种仅使用文本数据进行训练的视觉叙事方法，有效提高了视觉叙事的泛化能力。在VIST基准上进行的广泛实验以及表达多样性和人工评估的进一步评估结果，都突显了我们方法在信息丰富性和稳健性方面的优越性。

Aug, 2023

TouchStone: 通过语言模型评估视觉-语言模型

我们提出了一种评估方法，使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力，通过构建综合的触石视觉对话数据集和整合详细的图像注释，我们能够在不需要人为干预的情况下，利用先进的大语言模型直接评估多模态对话的质量，从而为大视觉语言模型的评估提供参考，并铺就构建更强大的大视觉语言模型的道路。

Aug, 2023

大型语言模型作为一致的故事可视化器

StoryGPT-V使用潜在扩散和大语言模型的优点，生成具有一致且高质量角色的图像，通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异，并具有较低的内存消耗。

Dec, 2023

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的MLLMs奠定了基础。

Feb, 2024

通过故事讲述栩栩如生的故事：一个富有表达力和流畅的多模式讲故事者

基于图像流生成合理和生动的故事情节的多模态的人类水平故事生成方法LLaMS通过充分利用LLM中的常识知识，首先采用序列数据自动增强策略来增强实际内容表达，并利用文本推理架构进行表达性故事生成和预测；其次，我们提出故事插图生成的SQ-Adapter模块来保持序列一致性。通过人工评估验证了LLaMS提出方法的优越性，与之前的SOTA方法相比具有最先进的故事性能，具有86%的相关性和100%的一致性胜率。此外，还进行了消融实验以验证所提出的序列数据增强和SQ-Adapter的有效性。

Mar, 2024

CoMM：一种用于多模态理解与生成的连贯交织的图像文本数据集

CoMM数据集提供了同时生成图像和文本的高质量多模态内容，以增强多模态大语言模型的一致性和准确性，并在多个下游任务中显示出显著的上下文学习能力。

Jun, 2024

SEED-Story：利用大型语言模型进行多模式长篇故事生成

使用多模态大型语言模型（MLLM）提出了SEED-Story，一种新颖的方法，用于生成扩展的多模态故事。模型基于MLLM的强大理解能力，预测文本和视觉标记，并通过适应的视觉解标记器处理视觉标记以生成具有一致的字符和风格的图像。还提出了多模态注意力池机制，以高效的自回归方式生成高达25个序列（仅使用10个进行训练）的故事。此外，还提供了一种名为StoryStream的大规模高分辨率数据集，用于训练模型并在各个方面定量评估多模态故事生成任务。

Jul, 2024

Openstory++：一种针对实例感知的开放域视觉叙事的大规模数据集和基准

本研究解决了现有图像生成模型在处理长文本上下文时实例一致性不足的问题。作者提出了Openstory++，一个结合了高级实例特征标注的大规模数据集，并开发了注重实体中心的图像-文本生成方法。结果显示，该数据集在促进高质量视觉叙事模型的发展方面具有重要影响。

Aug, 2024

基于上下文的视觉讲故事：视觉前缀调优与对比学习

本文解决了视觉讲故事中上下文信息捕捉和视觉变异性带来的挑战。提出了一种简单有效的框架，通过预训练模型的泛化能力，仅训练一个轻量级的视觉-语言映射网络，同时引入上下文以增强故事的连贯性。实验结果表明，该框架生成的故事在多样性、连贯性和信息量上表现良好，具有较高的趣味性。

Aug, 2024