Aug, 2024

基于上下文的视觉讲故事:视觉前缀调优与对比学习

TL;DR本文解决了视觉讲故事中上下文信息捕捉和视觉变异性带来的挑战。提出了一种简单有效的框架,通过预训练模型的泛化能力,仅训练一个轻量级的视觉-语言映射网络,同时引入上下文以增强故事的连贯性。实验结果表明,该框架生成的故事在多样性、连贯性和信息量上表现良好,具有较高的趣味性。