基于上下文的视觉讲故事：视觉前缀调优与对比学习

Aug, 2024

基于上下文的视觉讲故事：视觉前缀调优与对比学习

Context-aware Visual Storytelling with Visual Prefix Tuning and Contrastive Learning

Yingjin Song, Denis Paperno, Albert Gatt

TL;DR本文解决了视觉讲故事中上下文信息捕捉和视觉变异性带来的挑战。提出了一种简单有效的框架，通过预训练模型的泛化能力，仅训练一个轻量级的视觉-语言映射网络，同时引入上下文以增强故事的连贯性。实验结果表明，该框架生成的故事在多样性、连贯性和信息量上表现良好，具有较高的趣味性。

Abstract

Visual Storytelling systems generate multi-sentence stories from image sequences. In this task, capturing contextual information and bridging visual variation bring additional challenges. We propose a simple yet effective framework that leverages the generalization capabilities of pret