从视觉生活记录到叙事:综述
提出使用深度学习技术和自动图像字幕生成算法来生成 Lifelogging 摄像机捕捉到的图片的文本表示,通过应用时间一致性约束来创建更加简洁和不含噪声的摘要,研究结果表明,自动字幕生成算法可以帮助用户管理 Lifelogging 照片集合。
Aug, 2016
提出了一种基于关键帧选择的摘要方法,该方法利用卷积神经网络提取的视觉特征对由佩戴式摄像头拍摄的自我记录图像流进行视觉摘要,通过无监督聚类将图像流划分为事件,并从每个事件中提取最相关的关键帧。经过盲品测试验证结果的质量。
May, 2015
本文介绍了一个对 Lifelogs 进行问题回答的基准测试 TimelineQA1,并通过多个实验比较了几种 QA 模型的性能。实验结果表明,对于原子查询,抽取式 QA 系统明显优于一种最先进的检索增强 QA 系统。对于涉及聚合的多跳查询,我们展示了使用最先进的表格 QA 技术的最佳结果,前提是可用于推导答案的真实事件集合可用。
Jun, 2023
首个序列视觉语言数据集的发布,这个数据集中包含 81,743 张唯一图片和 20,211 个序列,旨在探讨其在视觉叙事任务中的应用,建立多个强劲的基础模型以及推动基于自动度量标准的进展,为模拟具象和比喻、社交语言提供了可能,从而推动人工智能不断向更接近人类理解的基于事件结构和主观表达的方向发展。
Apr, 2016
借助大型语言模型和大型视觉语言模型的指导调整,本文提出了一种新颖方法来解决视觉故事生成中的困难,通过组合图像和叙述来创造具有吸引力和丰富上下文的故事,实验结果表明,本方法在叙述连贯性、相关性、情感深度和总体质量等方面明显优于现有模型,凸显了指导调整和大型语言模型 / 视觉语言模型在推进视觉故事的潜力。
Jul, 2024
将图像序列转化为可解释的视觉前缀,结合预训练语言模型和规划,利用问题 - 答案对作为蓝图计划选择显著的视觉概念,并确定它们如何组织成故事,生成更连贯、有趣和自然的故事。
Oct, 2023
本研究探讨了基于神经生成的不同人格特征的视觉故事生成,通过在编码器和解码器表示中添加人格来引导生成,提出了五种模型,并使用五种不同的人格进行实验,结果表明我们的模型在生成目标人格的故事时表现更好。
Jun, 2019
此篇论文旨在通过学习网络和 hide-and-tell 模型,实现基于照片流的视觉叙事,其中传统的 RNN 模型得到了改进和改善,最终在自动指标方面的表现优于之前的最先进方法,并在可视化上表现出填补照片之间的叙事空缺的能力。
Feb, 2020
SCO-VIST 框架使用图表示形式,结合语义和基于发生的边权重,通过 Floyd-Warshall 算法生成视觉叙事。在多个指标上,该框架在视觉根植性、连贯性、多样性和人性上优于其他模型,经过自动和人工评估。
Feb, 2024
本文提出了基于神经网络的模型,通过图像序列生成短篇故事,该模型继承了 Vinyals 等人的图像描述模型,并引入了编码器 LSTM 来计算每个故事的上下文向量,用作多个独立解码器 LSTM 的第一个状态,每个解码器 LSTM 分别通过将图像嵌入作为第一个输入以生成相应图像序列的故事部分。我们在 Visual Storytelling Challenge 2018 的内部赛道上展示出了具有 METEOR 指标和人类评分的具有竞争力的结果。
Jun, 2018