T-CLAP：时间增强对比语言 - 音频预训练

Apr, 2024

T-CLAP：时间增强对比语言 - 音频预训练

T-CLAP: Temporal-Enhanced Contrastive Language-Audio Pretraining

Yi Yuan, Zhuo Chen, Xubo Liu, Haohe Liu, Xuenan Xu...

TL;DR使用大型语言模型和混淆策略生成音频剪辑的时序对比性描述，并设计新的时序对比损失函数来改进对比性语音 - 文本预训练模型 (T-CLAP)，结果在多个下游任务中显示出更强的捕捉音频事件时序关系的能力并显著超越了最先进的模型。

Abstract

contrastive language-audio pretraining~(clap) has been developed to align the representations of audio and language, achieving remarkable performance in retrieval and classification tasks. However, current

contrastive language-audio pretraining clap t-clap temporal information audio retrieval

发现论文，激发创造

tinyCLAP：压缩对比式语音 - 文本预训练模型

研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性，得到一个高效模型 ——tinyCLAP，该模型仅使用原 Microsoft CLAP 参数的 6％，在测试的三个声音事件检测数据集上，零样本分类性能仅降低不到 5％。

Nov, 2023

CLAP：从自然语言监督中学习音频概念

提出一种基于自然语言监督学习的音频概念学习方法 CLAP，通过两个编码器和对比学习将音频和文本描述连接到多模态空间中，从而实现了零样本性能，其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。

Jun, 2022

基于对比学习的自动音频字幕交互式音频文本表示

本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统，该系统结合声学和文本信息学习交互式跨模态表示，并应用对比学习来缩小领域差异，实验结果表明该方法在 NLP 评估标准上显著优于基线方法，表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。

Mar, 2022

FLAP：快速语言音频预训练

我们提出了快速语音 - 文本预训练（FLAP）的自监督方法，通过屏蔽、对比学习和重构来有效地学习对齐的音频和语言表示。FLAP 通过随机丢弃音频频谱标记，仅关注自我监督的剩余标记，以提高效率。通过互模态对比学习，FLAP 学习将配对的音频和文本表示对齐在共享的潜在空间中。值得注意的是，FLAP 通过屏蔽多个增强视图，并学习重构音频标记的屏蔽部分。此外，FLAP 利用大型语言模型（LLM）增强文本输入，以提高性能。这些方法导致更强大和信息丰富的音频 - 文本表示，使得 FLAP 在 AudioCaps（实现了 53.0% 的 R@1）和 Clotho（实现了 25.5% 的 R@1）的音频 - 文本检索任务中达到最先进的性能。

Nov, 2023

检索辅助文本转语音生成

我们提出了一种用于文本到音频生成的简单的检索增强方法，通过使用检索到的音频文本数据对 TTA 模型的学习进行指导，从而改善了 AudioLDM 模型在长尾数据集上的性能，在 AudioCaps 数据集上，我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法，能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。

Sep, 2023

EnCLAP：基于神经音频编解码器和音频文本联合嵌入的自动音频字幕生成

我们提出了一种自动音频字幕的新框架 EnCLAP，使用了两个声学表示模型 EnCodec 和 CLAP 以及一个预训练语言模型 BART。我们还引入了一种称为 masked codec modeling 的新训练目标，提高了预训练语言模型的声学感知能力。在 AudioCaps 和 Clotho 上的实验结果表明，我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。

Jan, 2024

大规模对比语音语言预训练：特征融合与关键词生成式扩充

本文提出了一个对比学习的流程，通过语音数据和自然语言描述来开发一个音频表示，构建了一个对比语音 - 语言预训练模型，通过 LAION-Audio-630K 数据集，并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力，在三个任务中检验模型表现，取得了优秀的性能表现。

Nov, 2022

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

在 CLIP 中融合音频信息进行多模态处理

本文研究了视觉 - 语言 - 音频多模态处理技术，提出了基于对比学习思想的 CLIP4VLA 模型，并在视频检索和视频字幕生成等多个任务中得到了最优结果。

Mar, 2023

CLAMP：对比式语言模型启发调节

研究论文简介：本文研究了大型语言模型在图像分类方面的应用，通过对多模态语言模型进行轻微微调，使用对比式图像 - 标题匹配目标，取得了比目前最先进的 MLLMs 提高了 13% 的图像分类性能，同时保留了语言模型的生成能力。

Dec, 2023