纯文本训练视觉叙事

MMAug, 2023

Text-Only Training for Visual Storytelling

Yuechen Wang, Wengang Zhou, Zhenbo Lu, Houqiang Li

TL;DR利用跨模态预训练的 CLIP 模型，结合纯文本数据训练的视觉条件故事生成器及不依赖训练的视觉条件规划器，提出了一种仅使用文本数据进行训练的视觉叙事方法，有效提高了视觉叙事的泛化能力。在 VIST 基准上进行的广泛实验以及表达多样性和人工评估的进一步评估结果，都突显了我们方法在信息丰富性和稳健性方面的优越性。

Abstract

visual storytelling aims to generate a narrative based on a sequence of images, necessitating both vision-language alignment and coherent story generation. Most existing solutions predominantly depend on paired i

visual storytelling vision-language alignment story generation clip model text-only training method

发现论文，激发创造

问题 - 答案计划的视觉叙事

将图像序列转化为可解释的视觉前缀，结合预训练语言模型和规划，利用问题 - 答案对作为蓝图计划选择显著的视觉概念，并确定它们如何组织成故事，生成更连贯、有趣和自然的故事。

Oct, 2023

以人物为中心的叙事

该研究利用 VIST 数据集，提出了一个模型，通过隐式学习提供的角色之间的关系，生成关注的角色的故事，旨在解决基于图像序列生成故事时，模型忽略可能存在的人和动物角色的问题。

Sep, 2019

文本的双模态：视觉和文本生成预训练

对于像素级语言模型，本论文介绍了一种新颖的预训练框架，通过在超过 4 亿个文档渲染的 RGB 图像上预训练，采用双模态训练方案，结合视觉数据和文本数据，通过下一个块预测和分类头预测进行训练，并展示了将视觉和文本数据结合的潜力及有效性。

Apr, 2024

只用语言数据学习视觉任务，竟然没有图像！

本文探讨了如何从文本数据中学习计算机视觉领域所需的高层次技能，并将其转移到视觉任务中，同时提出探究对比模型嵌入空间中不同模态的系统差异，进一步理解和缓解这种关注的策略。实践证明，我们使用仅文本训练数据在图像标注、视觉蕴含、视觉问题回答和视觉新闻等四个代表性任务上建立的模型，性能表现接近仅使用图像训练数据建立的模型，尤其是针对图像标注和视觉蕴含任务的文本训练数据，有望超过 9 个百分点的提升。同时，我们还展示了多种样式的图像标注模型，这些模型使用的不是图像数据和人工策划的语言数据，而是来自于图书、网络或语言模型可用的文本数据。

Nov, 2022

保持一致性：通过迭代多智能体通信从图像流中进行主题感知的故事叙述

本研究提出了一种新的视觉叙述方法，引入话题描述任务来检测图像流的全局语义背景，并通过多代理通信框架将话题描述生成器与故事生成器合并学习，实验结果表明该方法在生成故事方面具有比现有方法更高的质量。

Nov, 2019

新闻故事：用视觉摘要来说明文章

该研究探索了一个新的问题，即学习对不同长度和数量的图像文本具有强鲁棒性的自我监督视觉语言表示法，其介绍了一个包括超过 31M 篇文章，22M 张图片和 1M 个视频的大规模多模态数据集，并表明最先进的图像文本对齐方法不能很好地处理带有多张图像和更长篇幅的叙述，且还提出了一种直观的基线方法，在 GoodNews 数据集上零样本图像集检索表现比这些方法高出 10%。

Jul, 2022

每张图片都有一个故事：基于图像的可控风格故事生成

本文通过加入预训练模型 CLIP 和 GPT-2 解决数据稀缺性问题，加入风格适配器控制故事生成，尝试解决从图像到故事的生成难题，实现了包括非风格化、浪漫和动作等多种风格的故事生成。结果表明，该方法改善了故事的连贯性和图像与故事的相关性，但风格仍有待改进。

Sep, 2022

跨模态规则的信息化视觉叙事

本研究提出了一种基于跨模态规则挖掘的视觉叙事方法，通过将 CNN 激活和 Word 指数相结合构建多模态交易，并使用关联规则挖掘算法挖掘跨模态规则，充分捕捉实体、属性、行为和事件等相关概念，将其应用于编码器 - 解码器框架中，得到更具可解释性和可扩展性的故事生成模型，在 VIST 数据集上得到了很好的效果。

Jul, 2019

VT-CLIP: 使用视觉引导文本增强视觉语言模型

提出一种名为 VT-CLIP 的方法来增强 CLIP 模型，它通过可视化引导文本，使文本的特征更适应图片，在多分类任务中表现出很高的效果。

Dec, 2021

TAP：针对视觉分类任务自适应生成文本训练实例的有针对性提示

在此研究中，我们研究了一种基于文本的视觉与语言模型训练方法，并探索了如何根据下游任务的特点从大型语言模型中采样文本数据，以显著提升视觉识别性能。与先前方法相比，我们展示了达 (交) 领域特定适应的性能提高达 8.4％，精细化识别提高达 8.7％，零标记分类整体平均提高达 3.1％。

Sep, 2023