RECAP：检索增强音频字幕

Sep, 2023

RECAP: Retrieval-Augmented Audio Captioning

Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Ramani Duraiswami, Dinesh Manocha

TL;DRRECAP 是一种新颖有效的音频字幕系统，通过从数据存储中检索与输入音频类似的其他字幕来生成字幕，并且无需额外的微调即可适用于任何领域。

Abstract

We present recap (REtrieval-Augmented audio captioning), a novel and effective audio captioning system that generates captions conditioned

recap audio captioning audio-text model cross-attention layers benchmark datasets

发现论文，激发创造

RECAP: 检索增强音乐字幕生成器

通过对多模态数据的构建和深度学习模型的训练，本文提出了一种在音频和歌词之间学习对准关系的方法，并通过此方法优化跨模态对齐，并为音乐搜索和推荐提供了理论和实证结果。

Dec, 2022

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一，在 ClothoV2 基准测试中的表现优于当前的最新技术，提高了 5.6 个百分点的 mAP@10。

Aug, 2023

检索辅助文本转语音生成

我们提出了一种用于文本到音频生成的简单的检索增强方法，通过使用检索到的音频文本数据对 TTA 模型的学习进行指导，从而改善了 AudioLDM 模型在长尾数据集上的性能，在 AudioCaps 数据集上，我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法，能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。

Sep, 2023

使用 WavText5K 和 CLAP 训练进行音频检索

本文提出了一个新的 Web 音频文本检索框架，使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接，包括多个数据集的使用，取得了相对于 AudioCaps 和 Clotho 在文本 - 音频检索上 2％和 16％的提高，对于音频 - 文本检索上的 6％和 23％的提高。

Sep, 2022

通过听觉引导的零射频音频字幕生成

音频字幕任务与图像和视频字幕任务在本质上相似，但鲜有关注。我们提出了音频字幕的三个愿景：生成文本的流畅性，生成文本对输入音频的忠实度以及听觉可感知性。我们的方法是零样本方法，不通过学习而是通过推理过程来进行字幕生成，其中涉及的三个网络对应三个期望的质量：（i）一个大型语言模型，本文中为 GPT-2，（ii）一个在音频文件和文本之间提供匹配分数的模型，我们使用一种名为 ImageBind 的多模态匹配网络，（iii）一个文本分类器，利用我们自动收集的数据集进行训练，数据集是通过指导 GPT-4 生成可听和不可听的句子而设计的。我们在 AudioCap 数据集上展示了我们的结果，证明了听觉指导明显提高了性能，相比缺乏这一目标的基准系统。

Sep, 2023

一种基于编码器 - 解码器的音频字幕系统，具有迁移学习和强化学习

本文提出一种使用编码器 - 解码器架构的音频标题系统，并引入自上游音频相关任务或大规模领域内数据集的转移学习来缓解数据稀缺性带来的问题。通过强化学习将评估指标纳入模型优化中，可以解决由 “教师强制” 训练策略引起的 “曝光偏差” 和评估指标与损失函数之间的不匹配问题。这种方法在 DCASE 2021 Task 6 中排名第三，并进行了消融研究来研究所提出系统中的每个要素对最终性能的贡献。结果表明，提出的技术显着提高了评估指标的得分，但强化学习可能对生成的标题质量产生不利影响。

Aug, 2021

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

利用对齐的视频字幕增强的视频富文本检索生成

我们提出使用 “对齐视觉标题” 作为一种机制，将视频中的信息整合到基于检索增强生成的聊天助手系统中，这些标题能够以文本形式描述视频的视觉和音频内容，并且易于理解和加入到大型语言模型的提示中，同时也需要较少的多媒体内容来插入到多模态语言模型的上下文窗口中，我们还为常见的检索增强生成任务构建了一个数据集并描述了自动评估程序以促进该领域的进展。

May, 2024

自动音频字幕和基于语言的音频检索

参加了 DCASE 2022 比赛的两个子任务：自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验，分别对音频字幕和语音检索任务的最终表现进行了改进。

Jul, 2022