本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法,实现丰富内容的视频字幕生成,结果表明该方法不需要显式输入视频级别特征即可提供丰富内容,与最新技术方法相同。
May, 2016
本论文提出使用强化学习的方法在视频字幕的任务上使用序列到序列模型,在多个数据集上通过自动化评估和人工评估,基于句子级别任务评估指标进行随机策略和混合损失方法的优化,接着提出一种新的奖励函数 CIDEnt,进行短语匹配的纠正,并取得优于先前文献的新成果。
Aug, 2017
本文提出了一种新的视频字幕生成方法,利用多种视觉特征和语义属性的层次,采用 LSTM 网络进行句子生成,实现自动选取最突出的视觉特征或语义属性,有望提高字幕生成的精确度。实验结果表明,该框架胜过现有最先进的方法,并可进一步提升精度至近于人类水平。
Dec, 2016
该论文提出了一种基于 M&M TGM 的统一字幕生成框架,它利用从数据中无监督挖掘的多模态话题,并通过话题引导字幕解码器,通过并行任务主题预测来提高学习效果。该模型通过对 MSR-VTT 和 Youtube2Text 数据集进行广泛实验,证明了其在视频字幕生成方面的有效性,同时还具有更好的泛化能力。
本文提出一种联合建模的方法,将稠密视频字幕的两个子任务共同作为一个序列生成任务,同时预测事件和相应的描述,并使用 YouCook2 和 ViTT 的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。
Apr, 2022
该研究提出了一种网络架构,利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象,动作和交互,并将它们与长期和短期依赖结合起来,以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成,并在执行其他任务时表现出了良好的能力,如动作识别和空时样式转移。
该研究论文提出了一个实用的多模态视频摘要任务设置和一个数据集,用于训练和评估该任务。该任务旨在将给定视频总结为预定义数量的关键帧 - 标题对,并以可列举的格式显示,以快速把握视频内容。通过同时优化关键帧选择性能和标题质量,该任务需要仔细考虑前后关键帧和标题之间的相互依赖。为了促进这一领域的后续研究,研究人员还构建了一个数据集,并提出了一个评估框架。另外,研究人员还开发了两个基线系统并报告了它们各自的性能。
Dec, 2023
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
本文提出了一种多模态记忆模型 (M3),利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力,该方法在公开基准数据集上的实验证明,相比于最先进的方法,本文提出的方法在 BLEU 和 METEOR 方面表现较好。
Nov, 2016
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020