学习组合主题感知专家混合模型用于零样本视频字幕生成
我们提出了一种协议来研究使用未标注视频进行文本到视频检索训练,在这种协议下,我们不假设对任何视频有标签的访问,即没有对应用真实字幕的视频集的访问权限;但我们可以通过文本形式访问有标签的图片。使用图像专家模型是一个现实的场景,因为注释图像比昂贵的视频标注方案更便宜且可扩展。最近,零样本学习的图像专家,如 CLIP 已经为视频理解任务建立了强大的基准线。在本文中,我们利用这一进展,实例化两种类型的图像专家模型:文本到图像检索模型用于提供初始骨架,以及图像字幕模型用于向未标注视频提供监督信号。我们展示了通过使用图像字幕自动标记视频帧,可以进行文本到视频检索训练。这个过程可以在没有手动标注成本的情况下适应目标领域的特征,进而在文本到视频检索任务中胜过强大的零样本学习基准线 CLIP。在训练过程中,我们从多个最佳匹配视觉内容的视频帧中采样字幕,并通过对每个字幕的相关性对帧表示进行时间汇集。我们进行了广泛的消融实验来提供深入见解,并通过在三个标准数据集(ActivityNet、MSR-VTT 和 MSVD)上胜过 CLIP 的零样本学习基准线来证明这个简单框架的有效性。
Apr, 2024
该论文提出了一种基于 M&M TGM 的统一字幕生成框架,它利用从数据中无监督挖掘的多模态话题,并通过话题引导字幕解码器,通过并行任务主题预测来提高学习效果。该模型通过对 MSR-VTT 和 Youtube2Text 数据集进行广泛实验,证明了其在视频字幕生成方面的有效性,同时还具有更好的泛化能力。
Aug, 2017
该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法,通过使用多个关键模型来桥接视频和文本,并使用可学习的令牌来传递信息。在实验中,该方法在多个数据集上取得了与现有最先进方法相比的 4%至 20%的 CIDEr 主要评价指标的改进。
May, 2024
本文提出了一种基于主题导向模型 (TGM) 的视频描述生成模型,同时采用网络爬取的分类标签和无监督话题挖掘模型中的数据驱动话题挖掘来生成面向主题的视频描述。在当前最大的视频字幕数据集 MSR-VTT 上,我们的模型显著超过了 2016 年 MSR 视频到语言挑战赛的获胜表现。
Aug, 2017
该研究提出了一种 Mixture-of-Embedding-Experts 模型,可以利用来自图像和视频数据集的数据源同时改进文本视频嵌入,解决了训练中缺失输入因素的难题,并在视频检索任务中表现出显著的改进和优越性能。
Apr, 2018
通过多任务学习模型,结合无监督视频预测和语言蕴涵生成任务,共享参数学习提取更丰富的视频编码器表示和更好的视频 - 标题解码器表示,显著提高视频字幕生成的性能,达到了多个标准数据集的最新水平。
Apr, 2017
本文提出了一种新颖的伪监督方法,用于零样本学习自然语言视频定位模型,并在 Charades-STA 和 ActivityNet-Captions 数据集上实验验证该方法相较于其他方法性能有明显提升。
Aug, 2021
我们提出了一个模块化框架,利用不同模态和领域中不同基础模型的专业知识,以执行一个单一、复杂的多模态任务,无需依赖提示工程或量身定制的多模态训练。我们的方法实现了分散的命令执行,使每个模型能够同时贡献和受益于其他模型的专业知识。我们的方法可以扩展到各种基础模型(包括音频和视觉),不仅限于语言模型,因为它不依赖于提示。我们在两个任务上演示了我们的方法。在众所周知的样式化图像字幕任务中,我们的实验表明我们的方法优于半监督最先进模型,同时具备零 - shot 能力,避免了昂贵的训练、数据收集和提示工程。我们进一步在一个新颖的任务上演示了这个方法,即音频感知图像字幕,在这个任务中,给定图像和音频,任务是在提供的音频语境中生成描述图像的文本。我们的代码可在 GitHub 上找到。
Oct, 2023
ZerAuCap 是一个新的框架,利用预训练的大型语言模型来生成既不需要任务特定训练,又能描述音频内容的文本标注,通过预先训练的音频 - 语言模型指导语言模型生成内容与音频相关的文本,使用音频上下文关键词来生成广义的文本,在 AudioCaps 和 Clotho 数据集中实现了最先进的结果。
Nov, 2023