学习组合主题感知专家混合模型用于零样本视频字幕生成

AAAINov, 2018

学习组合主题感知专家混合模型用于零样本视频字幕生成

Learning to Compose Topic-Aware Mixture of Experts for Zero-Shot Video Captioning

Xin Wang, Jiawei Wu, Da Zhang, Yu Su, William Yang Wang

TL;DR该论文提出了一种基于 TAMoE 模型的零样本视频字幕生成方法，利用外部相关语料库构建出各个活动的主题嵌入向量，从而实现对新活动的描述，具有很强的推广能力。

Abstract

Although promising results have been achieved in video captioning, existing models are limited to the fixed inventory of activities in the training corpus, and do not generalize to open vocabulary scenarios. Here we introduce a novel task, →

video captioning zero-shot topic-aware mixture of experts (tamoe) model semantic knowledge generalization ability

发现论文，激发创造

联合优化文本和时刻的零样本密集视频字幕生成

ZeroTA 是一种用零样本方式进行密集视频字幕生成的新方法，它通过与语言生成模型和视觉语言模型的联合优化来定位和描述输入视频中的事件。

Jul, 2023

学习从图像描述到视频检索

我们提出了一种协议来研究使用未标注视频进行文本到视频检索训练，在这种协议下，我们不假设对任何视频有标签的访问，即没有对应用真实字幕的视频集的访问权限；但我们可以通过文本形式访问有标签的图片。使用图像专家模型是一个现实的场景，因为注释图像比昂贵的视频标注方案更便宜且可扩展。最近，零样本学习的图像专家，如 CLIP 已经为视频理解任务建立了强大的基准线。在本文中，我们利用这一进展，实例化两种类型的图像专家模型：文本到图像检索模型用于提供初始骨架，以及图像字幕模型用于向未标注视频提供监督信号。我们展示了通过使用图像字幕自动标记视频帧，可以进行文本到视频检索训练。这个过程可以在没有手动标注成本的情况下适应目标领域的特征，进而在文本到视频检索任务中胜过强大的零样本学习基准线 CLIP。在训练过程中，我们从多个最佳匹配视觉内容的视频帧中采样字幕，并通过对每个字幕的相关性对帧表示进行时间汇集。我们进行了广泛的消融实验来提供深入见解，并通过在三个标准数据集（ActivityNet、MSR-VTT 和 MSVD）上胜过 CLIP 的零样本学习基准线来证明这个简单框架的有效性。

Apr, 2024

利用多模态潜在主题进行视频字幕生成

该论文提出了一种基于 M&M TGM 的统一字幕生成框架，它利用从数据中无监督挖掘的多模态话题，并通过话题引导字幕解码器，通过并行任务主题预测来提高学习效果。该模型通过对 MSR-VTT 和 Youtube2Text 数据集进行广泛实验，证明了其在视频字幕生成方面的有效性，同时还具有更好的泛化能力。

Aug, 2017

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

使用主题引导生成视频描述

本文提出了一种基于主题导向模型 (TGM) 的视频描述生成模型，同时采用网络爬取的分类标签和无监督话题挖掘模型中的数据驱动话题挖掘来生成面向主题的视频描述。在当前最大的视频字幕数据集 MSR-VTT 上，我们的模型显著超过了 2016 年 MSR 视频到语言挑战赛的获胜表现。

Aug, 2017

从不完整和异构化数据中学习文本 - 视频嵌入

该研究提出了一种 Mixture-of-Embedding-Experts 模型，可以利用来自图像和视频数据集的数据源同时改进文本视频嵌入，解决了训练中缺失输入因素的难题，并在视频检索任务中表现出显著的改进和优越性能。

Apr, 2018

使用视频和蕴含生成的多任务视频字幕生成

通过多任务学习模型，结合无监督视频预测和语言蕴涵生成任务，共享参数学习提取更丰富的视频编码器表示和更好的视频 - 标题解码器表示，显著提高视频字幕生成的性能，达到了多个标准数据集的最新水平。

Apr, 2017

零样本自然语言视频定位

本文提出了一种新颖的伪监督方法，用于零样本学习自然语言视频定位模型，并在 Charades-STA 和 ActivityNet-Captions 数据集上实验验证该方法相较于其他方法性能有明显提升。

Aug, 2021

Apollo：多模式无需标注的零 - shot 推理与多专家

我们提出了一个模块化框架，利用不同模态和领域中不同基础模型的专业知识，以执行一个单一、复杂的多模态任务，无需依赖提示工程或量身定制的多模态训练。我们的方法实现了分散的命令执行，使每个模型能够同时贡献和受益于其他模型的专业知识。我们的方法可以扩展到各种基础模型（包括音频和视觉），不仅限于语言模型，因为它不依赖于提示。我们在两个任务上演示了我们的方法。在众所周知的样式化图像字幕任务中，我们的实验表明我们的方法优于半监督最先进模型，同时具备零 - shot 能力，避免了昂贵的训练、数据收集和提示工程。我们进一步在一个新颖的任务上演示了这个方法，即音频感知图像字幕，在这个任务中，给定图像和音频，任务是在提供的音频语境中生成描述图像的文本。我们的代码可在 GitHub 上找到。

Oct, 2023

在零样本音频字幕中使用音频 - 语言模型引导和音频上下文关键词

ZerAuCap 是一个新的框架，利用预训练的大型语言模型来生成既不需要任务特定训练，又能描述音频内容的文本标注，通过预先训练的音频 - 语言模型指导语言模型生成内容与音频相关的文本，使用音频上下文关键词来生成广义的文本，在 AudioCaps 和 Clotho 数据集中实现了最先进的结果。

Nov, 2023