利用多模态潜在主题进行视频字幕生成
本文提出了一种基于主题导向模型 (TGM) 的视频描述生成模型,同时采用网络爬取的分类标签和无监督话题挖掘模型中的数据驱动话题挖掘来生成面向主题的视频描述。在当前最大的视频字幕数据集 MSR-VTT 上,我们的模型显著超过了 2016 年 MSR 视频到语言挑战赛的获胜表现。
Aug, 2017
本文提出了一种多模态记忆模型 (M3),利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力,该方法在公开基准数据集上的实验证明,相比于最先进的方法,本文提出的方法在 BLEU 和 METEOR 方面表现较好。
Nov, 2016
通过多任务学习模型,结合无监督视频预测和语言蕴涵生成任务,共享参数学习提取更丰富的视频编码器表示和更好的视频 - 标题解码器表示,显著提高视频字幕生成的性能,达到了多个标准数据集的最新水平。
Apr, 2017
提出了一种新的预训练框架 Multimodal Video Generative Pretraining (MV-GPT),通过利用未标记视频中的未来话语作为附加文本源并引入双向生成目标,以从生图像和录制语音直接生成说明的端到端模型来有效地生成多模态视频说明。
Jan, 2022
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
本文提出了一种新的视频字幕生成方法,利用多种视觉特征和语义属性的层次,采用 LSTM 网络进行句子生成,实现自动选取最突出的视觉特征或语义属性,有望提高字幕生成的精确度。实验结果表明,该框架胜过现有最先进的方法,并可进一步提升精度至近于人类水平。
Dec, 2016
本文提出了一个通用的多模态模型融合框架,以及将预训练的辅助语言模型 (AuxLM) 和掩码语言模型 (MLM) 进行多模态融合,以改进生成的图像描述的质量和纠正其语法和语义错误。在三个基准数据集上的实验结果显示出了明显的改进。
Oct, 2020
通过对多个视频字幕数据集的正确组合,我们在 MSRVTT 和 LSMDC 基准测试上提出了一种新的文本到视频检索任务的最新技术,成果展示了在无微调的情况下,单一模型在两个数据集上实现了最先进的结果。
Mar, 2021
基于多模态的视频主题分段器利用视频转录和帧,结合跨模态注意机制,提出了一种双对比学习框架,从而提高我们的模型对更长、更语义复杂的视频的适应能力。在短视频和长视频集合上的实验证明,我们的解决方案明显优于基准方法,无论是准确度还是可转移性,在域内和跨领域设置下都有显著提升。
Nov, 2023
本文提出了一种基于多模态 transformer 架构的视频检索方法,该方法能够充分利用视频中的跨模态线索,并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。
Jul, 2020