CLAP：从自然语言监督中学习音频概念

Jun, 2022

CLAP：从自然语言监督中学习音频概念

CLAP: Learning Audio Concepts From Natural Language Supervision

Benjamin Elizalde, Soham Deshmukh, Mahmoud Al Ismail, Huaming Wang

TL;DR提出一种基于自然语言监督学习的音频概念学习方法 CLAP，通过两个编码器和对比学习将音频和文本描述连接到多模态空间中，从而实现了零样本性能，其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。

Abstract

Mainstream audio analytics models are trained to learn under the paradigm of one class label to many recordings focusing on one task. Learning under such restricted supervision limits the flexibility of models because they require labeled audio for training and can only predict the pre

audio analytics natural language supervision contrastive learning multimodal space zero-shot performance

发现论文，激发创造

T-CLAP：时间增强对比语言 - 音频预训练

使用大型语言模型和混淆策略生成音频剪辑的时序对比性描述，并设计新的时序对比损失函数来改进对比性语音 - 文本预训练模型 (T-CLAP)，结果在多个下游任务中显示出更强的捕捉音频事件时序关系的能力并显著超越了最先进的模型。

Apr, 2024

tinyCLAP：压缩对比式语音 - 文本预训练模型

研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性，得到一个高效模型 ——tinyCLAP，该模型仅使用原 Microsoft CLAP 参数的 6％，在测试的三个声音事件检测数据集上，零样本分类性能仅降低不到 5％。

Nov, 2023

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

CLAP: 利用自然语言监督学习可转移的二进制码表示

利用对二进制代码进行对比学习，提高其在迁移学习中的性能，通过对齐二进制代码和自然语言解释来生成更好的嵌入表示，而无需特定任务的训练。

Feb, 2024

使用预训练大型多模态模型的音频视觉广义零样本学习

利用预训练模型，包括 CLIP 和 CLAP 提取特征，结合文本编码嵌入以提高性能，我们提出了一个仅依赖前馈神经网络的简单而有效的模型来处理音频视觉的零样本学习，并在 VGGSound-GZSL、UCF-GZSL 和 ActivityNet-GZSL 等数据集上取得了最先进的性能。

Apr, 2024

FLAP：快速语言音频预训练

我们提出了快速语音 - 文本预训练（FLAP）的自监督方法，通过屏蔽、对比学习和重构来有效地学习对齐的音频和语言表示。FLAP 通过随机丢弃音频频谱标记，仅关注自我监督的剩余标记，以提高效率。通过互模态对比学习，FLAP 学习将配对的音频和文本表示对齐在共享的潜在空间中。值得注意的是，FLAP 通过屏蔽多个增强视图，并学习重构音频标记的屏蔽部分。此外，FLAP 利用大型语言模型（LLM）增强文本输入，以提高性能。这些方法导致更强大和信息丰富的音频 - 文本表示，使得 FLAP 在 AudioCaps（实现了 53.0% 的 R@1）和 Clotho（实现了 25.5% 的 R@1）的音频 - 文本检索任务中达到最先进的性能。

Nov, 2023

基于对比学习的自动音频字幕交互式音频文本表示

本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统，该系统结合声学和文本信息学习交互式跨模态表示，并应用对比学习来缩小领域差异，实验结果表明该方法在 NLP 评估标准上显著优于基线方法，表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。

Mar, 2022

大规模对比语音语言预训练：特征融合与关键词生成式扩充

本文提出了一个对比学习的流程，通过语音数据和自然语言描述来开发一个音频表示，构建了一个对比语音 - 语言预训练模型，通过 LAION-Audio-630K 数据集，并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力，在三个任务中检验模型表现，取得了优秀的性能表现。

Nov, 2022

EnCLAP：基于神经音频编解码器和音频文本联合嵌入的自动音频字幕生成

我们提出了一种自动音频字幕的新框架 EnCLAP，使用了两个声学表示模型 EnCodec 和 CLAP 以及一个预训练语言模型 BART。我们还引入了一种称为 masked codec modeling 的新训练目标，提高了预训练语言模型的声学感知能力。在 AudioCaps 和 Clotho 上的实验结果表明，我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。

Jan, 2024

使用未标记的视频和预训练语言 - 视觉模型进行文本 - 音频合成的 CLIPSonic

利用预训练模型和未标注视频数据，本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点，并通过传输模式来进一步提升性能。

Jun, 2023