迭代故事感知字幕与大型语言模型相结合的相册讲故事
本文提出了一种端到端的视觉叙事问题的解决方案,首先使用基于层次注意的循环神经网络对相册照片进行编码,然后选择代表性的照片,并为其撰写自然语言的相册故事。经自动化和人工评估表明,该模型在选择、生成和检索方面的性能均优于基线模型。
Aug, 2017
借助大型语言模型和大型视觉语言模型的指导调整,本文提出了一种新颖方法来解决视觉故事生成中的困难,通过组合图像和叙述来创造具有吸引力和丰富上下文的故事,实验结果表明,本方法在叙述连贯性、相关性、情感深度和总体质量等方面明显优于现有模型,凸显了指导调整和大型语言模型 / 视觉语言模型在推进视觉故事的潜力。
Jul, 2024
自动生成可视化工具的标题是很不新鲜的,但是最近大规模语言模型 (LLMs) 的进步为此带来了令人激动的新可能。本文在对信息可视化(InfoVis)原理和过去的标题工作进行简要回顾后,介绍了在通用 LLMs 中使用的神经模型和变压器架构。接下来,我们讨论了它们在 InfoVis 中的最新应用,重点是标题。此外,我们还探讨了这个领域未来的有希望的研究方向。
Jun, 2024
基于图像流生成合理和生动的故事情节的多模态的人类水平故事生成方法 LLaMS 通过充分利用 LLM 中的常识知识,首先采用序列数据自动增强策略来增强实际内容表达,并利用文本推理架构进行表达性故事生成和预测;其次,我们提出故事插图生成的 SQ-Adapter 模块来保持序列一致性。通过人工评估验证了 LLaMS 提出方法的优越性,与之前的 SOTA 方法相比具有最先进的故事性能,具有 86% 的相关性和 100% 的一致性胜率。此外,还进行了消融实验以验证所提出的序列数据增强和 SQ-Adapter 的有效性。
Mar, 2024
StoryGPT-V 使用潜在扩散和大语言模型的优点,生成具有一致且高质量角色的图像,通过解决指代消解和对上下文的理解来提高生成准确性和忠实度。模型在视觉故事可视化上表现优异,并具有较低的内存消耗。
Dec, 2023
运用预训练的大规模语言 - 图像模型,本文尝试解决可视化分析中的两个问题:大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题,我们能深入了解视觉内容的语义基础,并发现数据偏差。同时,通过展示视觉内容与文本标题之间的关联,揭示了预训练的语言 - 图像模型在标题生成能力上的不足,并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。
Nov, 2023
本文综合研究图像描述中的视觉编码、文本生成、训练策略、数据集和评估指标等方面,量化比较多个相关的最前沿方法,以识别体系结构和训练策略中最具影响力的技术创新并探讨问题的许多变体和开放挑战,旨在为理解现有文献和强调计算机视觉和自然语言处理领域的未来方向提供工具。
Jul, 2021
本研究提出了一种新的视觉叙述方法,引入话题描述任务来检测图像流的全局语义背景,并通过多代理通信框架将话题描述生成器与故事生成器合并学习,实验结果表明该方法在生成故事方面具有比现有方法更高的质量。
Nov, 2019
该研究旨在通过机器辅助写作使人类更有效地完成写作任务;研究者提出一种重写模型,允许用户在原始草稿的指定文本范围内引入局部描述性和比喻性元素,并评估模型在创意图像字幕任务上协作的能力。在与传统模型和用户单独完成任务的比较中,模型获得更高评价,并促使用户编写更具有描述性和比喻性的字幕。
Nov, 2021
通过对多模态数据的构建和深度学习模型的训练,本文提出了一种在音频和歌词之间学习对准关系的方法,并通过此方法优化跨模态对齐,并为音乐搜索和推荐提供了理论和实证结果。
Dec, 2022