多模态大型语言模型改进视觉叙述
利用跨模态预训练的CLIP模型,结合纯文本数据训练的视觉条件故事生成器及不依赖训练的视觉条件规划器,提出了一种仅使用文本数据进行训练的视觉叙事方法,有效提高了视觉叙事的泛化能力。在VIST基准上进行的广泛实验以及表达多样性和人工评估的进一步评估结果,都突显了我们方法在信息丰富性和稳健性方面的优越性。
Aug, 2023
我们提出了一种评估方法,使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力,通过构建综合的触石视觉对话数据集和整合详细的图像注释,我们能够在不需要人为干预的情况下,利用先进的大语言模型直接评估多模态对话的质量,从而为大视觉语言模型的评估提供参考,并铺就构建更强大的大视觉语言模型的道路。
Aug, 2023
StoryGPT-V使用潜在扩散和大语言模型的优点,生成具有一致且高质量角色的图像,通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异,并具有较低的内存消耗。
Dec, 2023
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的MLLMs奠定了基础。
Feb, 2024
基于图像流生成合理和生动的故事情节的多模态的人类水平故事生成方法LLaMS通过充分利用LLM中的常识知识,首先采用序列数据自动增强策略来增强实际内容表达,并利用文本推理架构进行表达性故事生成和预测;其次,我们提出故事插图生成的SQ-Adapter模块来保持序列一致性。通过人工评估验证了LLaMS提出方法的优越性,与之前的SOTA方法相比具有最先进的故事性能,具有86%的相关性和100%的一致性胜率。此外,还进行了消融实验以验证所提出的序列数据增强和SQ-Adapter的有效性。
Mar, 2024
CoMM数据集提供了同时生成图像和文本的高质量多模态内容,以增强多模态大语言模型的一致性和准确性,并在多个下游任务中显示出显著的上下文学习能力。
Jun, 2024
使用多模态大型语言模型(MLLM)提出了SEED-Story,一种新颖的方法,用于生成扩展的多模态故事。模型基于MLLM的强大理解能力,预测文本和视觉标记,并通过适应的视觉解标记器处理视觉标记以生成具有一致的字符和风格的图像。还提出了多模态注意力池机制,以高效的自回归方式生成高达25个序列(仅使用10个进行训练)的故事。此外,还提供了一种名为StoryStream的大规模高分辨率数据集,用于训练模型并在各个方面定量评估多模态故事生成任务。
Jul, 2024
本研究解决了现有图像生成模型在处理长文本上下文时实例一致性不足的问题。作者提出了Openstory++,一个结合了高级实例特征标注的大规模数据集,并开发了注重实体中心的图像-文本生成方法。结果显示,该数据集在促进高质量视觉叙事模型的发展方面具有重要影响。
Aug, 2024
本文解决了视觉讲故事中上下文信息捕捉和视觉变异性带来的挑战。提出了一种简单有效的框架,通过预训练模型的泛化能力,仅训练一个轻量级的视觉-语言映射网络,同时引入上下文以增强故事的连贯性。实验结果表明,该框架生成的故事在多样性、连贯性和信息量上表现良好,具有较高的趣味性。
Aug, 2024