通过听觉引导的零射频音频字幕生成

Sep, 2023

通过听觉引导的零射频音频字幕生成

Zero-Shot Audio Captioning via Audibility Guidance

Tal Shaharabany, Ariel Shaulov, Lior Wolf

TL;DR音频字幕任务与图像和视频字幕任务在本质上相似，但鲜有关注。我们提出了音频字幕的三个愿景：生成文本的流畅性，生成文本对输入音频的忠实度以及听觉可感知性。我们的方法是零样本方法，不通过学习而是通过推理过程来进行字幕生成，其中涉及的三个网络对应三个期望的质量：（i）一个大型语言模型，本文中为 GPT-2，（ii）一个在音频文件和文本之间提供匹配分数的模型，我们使用一种名为 ImageBind 的多模态匹配网络，（iii）一个文本分类器，利用我们自动收集的数据集进行训练，数据集是通过指导 GPT-4 生成可听和不可听的句子而设计的。我们在 AudioCap 数据集上展示了我们的结果，证明了听觉指导明显提高了性能，相比缺乏这一目标的基准系统。

Abstract

The task of audio captioning is similar in essence to tasks such as image and video captioning. However, it has received much less attention. We propose three desiderata for captioning audio -- (i) fluency of the

audio captioning fluency faithfulness audibility zero-shot method

发现论文，激发创造

在零样本音频字幕中使用音频 - 语言模型引导和音频上下文关键词

ZerAuCap 是一个新的框架，利用预训练的大型语言模型来生成既不需要任务特定训练，又能描述音频内容的文本标注，通过预先训练的音频 - 语言模型指导语言模型生成内容与音频相关的文本，使用音频上下文关键词来生成广义的文本，在 AudioCaps 和 Clotho 数据集中实现了最先进的结果。

Nov, 2023

自动音频字幕生成：近期进展与新挑战概述

本文综述了自动音频字幕生成领域内的研究现状，包括使用的深度学习技术、网络架构、评估指标和挑战，同时讨论了未来的研究方向。

May, 2022

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

具有自适应视听关注的视觉感知音频字幕

本文提出了一种基于视觉感知的音频字幕生成方法，将来自视频的视觉信息整合到音频字幕系统中，采用音视频关注机制自适应地整合音频和视觉信息，显著提高了音频字幕系统的性能。

Oct, 2022

RECAP：检索增强音频字幕

RECAP 是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Sep, 2023

可解释的视听视频字幕生成尝试

本论文介绍了一个多模态卷积神经网络视频字幕框架，通过引入模态感知模块，探索了视听交互对视频理解的影响，并证明该可解释模型在情况选择时取得了可比较的性能。

Dec, 2018

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

探索音频在视频字幕中的作用

本研究提出了一种音视频框架，利用原始音频信号学习，通过 Modality Balanced Pre-training 优化模型，且采用局部和全局融合机制进行信息交换，以提高视频字幕生成的性能。

Jun, 2023

使用音频和文本共享的潜在表示进行高效音频字幕生成

通过提出预训练的 Transformer 架构、数据增强技术和参数高效的推理算法，研究针对自动音频字幕生成应用中存在的过度参数化、虚构现象和大内存占用的问题，通过语义对齐和类似度计算等方法，提升性能并减少模型复杂度。

Sep, 2023

用合成标题改进文本到音频模型

通过语音标注管道，使用音频语言模型合成准确且多样的音频标注，提供了合成标注数据集以及训练基于合成标注的文本转音频模型，取得了新的最先进的结果。

Jun, 2024