在零样本音频字幕中使用音频 - 语言模型引导和音频上下文关键词

Nov, 2023

在零样本音频字幕中使用音频 - 语言模型引导和音频上下文关键词

Zero-shot audio captioning with audio-language model guidance and audio context keywords

Leonard Salewski, Stefan Fauth, A. Sophia Koepke, Zeynep Akata

TL;DRZerAuCap 是一个新的框架，利用预训练的大型语言模型来生成既不需要任务特定训练，又能描述音频内容的文本标注，通过预先训练的音频 - 语言模型指导语言模型生成内容与音频相关的文本，使用音频上下文关键词来生成广义的文本，在 AudioCaps 和 Clotho 数据集中实现了最先进的结果。

Abstract

zero-shot audio captioning aims at automatically generating descriptive textual captions for audio content without prior training for this task. Different from speech recognition which translates audio content that contains spoken language into text, audio captioning is commonly concer

zero-shot audio captioning zeraucap pre-trained large language model audio context keywords state-of-the-art results

发现论文，激发创造

通过听觉引导的零射频音频字幕生成

音频字幕任务与图像和视频字幕任务在本质上相似，但鲜有关注。我们提出了音频字幕的三个愿景：生成文本的流畅性，生成文本对输入音频的忠实度以及听觉可感知性。我们的方法是零样本方法，不通过学习而是通过推理过程来进行字幕生成，其中涉及的三个网络对应三个期望的质量：（i）一个大型语言模型，本文中为 GPT-2，（ii）一个在音频文件和文本之间提供匹配分数的模型，我们使用一种名为 ImageBind 的多模态匹配网络，（iii）一个文本分类器，利用我们自动收集的数据集进行训练，数据集是通过指导 GPT-4 生成可听和不可听的句子而设计的。我们在 AudioCap 数据集上展示了我们的结果，证明了听觉指导明显提高了性能，相比缺乏这一目标的基准系统。

Sep, 2023

泛零样本音频到意图分类

利用仅有每个意图几个样本文本句子的泛化零样本音频到意图分类框架，该框架使用只有音频的数据，通过训练有监督的音频到意图分类器和利用神经音频合成器生成音频嵌入，使用余弦相似度对未见过的意图进行泛化零样本分类，并通过多模态训练策略将词汇信息融入音频表征来提高泛化零样本性能。相较于仅使用音频训练，我们的多模态训练方法提高了 SLURP 和内部目标导向对话数据集上未见过的意图的零样本意图分类准确率分别为 2.75％和 18.2％。

Nov, 2023

ZeroCap：面向视觉语义算术的零样本图像到文本生成

本文介绍了一种将视觉语义模型和大型语言模型相结合的技术，实现了对图像生成描述性文本的能力，且可用于图像算术和视觉类比等高级视觉能力的应用。

Nov, 2021

自动音频字幕生成：近期进展与新挑战概述

本文综述了自动音频字幕生成领域内的研究现状，包括使用的深度学习技术、网络架构、评估指标和挑战，同时讨论了未来的研究方向。

May, 2022

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

MeaCap: 存储增强的零样本图像描述

提出了一种新颖的记忆增强型零样本图像字幕生成框架（MeaCap），通过装备文本记忆并引入检索 - 过滤模块，使用基于记忆的视觉相关融合评分及关键词 - 句子语言模型，生成与图像高度一致、拥有更少幻觉和更多世界知识的以概念为中心的字幕；该框架在一系列零样本图像字幕设置中取得了最先进的性能。

Mar, 2024

多单帽编码：用于零 - shot 多语言视觉字幕的自动编码提示

多场景和多语言的视觉描述生成中，我们提出了一种简单而有效的零样本方法 MultiCapCLIP，它可以在不需要标注视觉 - 描述对的情况下，为不同的场景和语言生成视觉描述，并且在四个基准测试和四种语言上得到了相对于最先进的零样本和弱监督方法分别为 4.8% 和 21.5% 的绝对改进。

Aug, 2023

利用生成语言模型进行零样本文本分类

本文研究了使用自然语言实现零样本模型对新任务的自适应性，通过社交评论平台的文本和元数据作为简单的预训练任务，并提供分类任务的自然语言描述作为输入训练语言模型，以生成正确答案的方式进行自然语言的模型推广，克服了多任务分类的缺点，在六个基准文本分类数据集上训练出具有零样本性能的生成性语言模型，结果显示语言可以作为任务自适应的简单而强大的描述符，这为文本问题的新元学习策略指明了方向。

Dec, 2019

检索增强型零样本视频字幕生成

该论文提出了一种利用现有的大规模视觉和语言模型进行测试时间适应性直接生成字幕的方法，通过使用多个关键模型来桥接视频和文本，并使用可学习的令牌来传递信息。在实验中，该方法在多个数据集上取得了与现有最先进方法相比的 4％至 20％的 CIDEr 主要评价指标的改进。

May, 2024

RECAP：检索增强音频字幕

RECAP 是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Sep, 2023