FLAP：快速语言音频预训练

Nov, 2023

FLAP: Fast Language-Audio Pre-training

Ching-Feng Yeh, Po-Yao Huang, Vasu Sharma, Shang-Wen Li, Gargi Gosh

TL;DR我们提出了快速语音 - 文本预训练（FLAP）的自监督方法，通过屏蔽、对比学习和重构来有效地学习对齐的音频和语言表示。FLAP 通过随机丢弃音频频谱标记，仅关注自我监督的剩余标记，以提高效率。通过互模态对比学习，FLAP 学习将配对的音频和文本表示对齐在共享的潜在空间中。值得注意的是，FLAP 通过屏蔽多个增强视图，并学习重构音频标记的屏蔽部分。此外，FLAP 利用大型语言模型（LLM）增强文本输入，以提高性能。这些方法导致更强大和信息丰富的音频 - 文本表示，使得 FLAP 在 AudioCaps（实现了 53.0% 的 R@1）和 Clotho（实现了 25.5% 的 R@1）的音频 - 文本检索任务中达到最先进的性能。

Abstract

We propose fast language-audio pre-training (FLAP), a self-supervised approach that efficiently and effectively learns aligned audio and language representations through masking, contrastive learning and reconstruction. For efficiency, FLAP randomly drops audio spectrogram tokens, focu

fast language-audio pre-training self-supervised approach audio-text representations inter-modal contrastive learning state-of-the-art performance

发现论文，激发创造

CLAP：从自然语言监督中学习音频概念

提出一种基于自然语言监督学习的音频概念学习方法 CLAP，通过两个编码器和对比学习将音频和文本描述连接到多模态空间中，从而实现了零样本性能，其具有无需使用类别标签进行训练、预测灵活度高、具有多个下游任务通用性等优点。

Jun, 2022

T-CLAP：时间增强对比语言 - 音频预训练

使用大型语言模型和混淆策略生成音频剪辑的时序对比性描述，并设计新的时序对比损失函数来改进对比性语音 - 文本预训练模型 (T-CLAP)，结果在多个下游任务中显示出更强的捕捉音频事件时序关系的能力并显著超越了最先进的模型。

Apr, 2024

tinyCLAP：压缩对比式语音 - 文本预训练模型

研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性，得到一个高效模型 ——tinyCLAP，该模型仅使用原 Microsoft CLAP 参数的 6％，在测试的三个声音事件检测数据集上，零样本分类性能仅降低不到 5％。

Nov, 2023

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

大规模对比语音语言预训练：特征融合与关键词生成式扩充

本文提出了一个对比学习的流程，通过语音数据和自然语言描述来开发一个音频表示，构建了一个对比语音 - 语言预训练模型，通过 LAION-Audio-630K 数据集，并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力，在三个任务中检验模型表现，取得了优秀的性能表现。

Nov, 2022

统一的视频 - 语言联合预训练与同步音频

我们提出了一种增强的视频语言预训练框架，使用同步音频，可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下，取得了相对于现有基准的改进结果，并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。

May, 2024

CTAL：跨模态预训练 Transformer 用于音频和语言表示

本论文介绍了一种名为 CTAL 的跨模态转换器，旨在利用大量的音频和语言数据对两个代理任务进行遮蔽语言建模和遮蔽跨模态声学建模，以学习音频和语言之间的内模态和跨模态连接。在多个下游音频和语言任务的微调后，我们观察到在情感分类、情感分析和说话者验证等各种任务中都有显着的改进。最后，我们进行了详细的剖析研究，证明我们的创新跨模态融合组件和音频语言预训练方法显著促成了这一有前途的结果。

Sep, 2021

具有稳健遗忘机制的生命周期音视频屏蔽自编码器与局部对齐

我们提出了一种终身音视频遮罩自编码器，它能够在分布随时间不断变化的视频流中持续学习多模态表示。具体而言，我们提出了两个创新点来解决这个问题：（1）局部对齐：我们引入了一个小型可训练的多模态编码器，用于预测彼此相互对齐的音频和视频令牌。这使得模型只学习具有准确多模态关系的高度相关的音视频补丁。（2）忘却鲁棒多模态补丁选择：我们比较当前数据对之间每个音视频补丁的相对重要性，以减轻先前学习的音视频表示的意外漂移。因此，我们提出的方法 FLAVA 在一系列预训练任务上训练期间捕捉音频和视频模态之间的复杂关系，并减轻了已学习音视频相关性的遗忘。我们的实验证实了 FLAVA 在持续音视频表示学习场景下的几个基准数据集上优于现有的持续学习方法。

Oct, 2023

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

基于对比学习的自动音频字幕交互式音频文本表示

本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统，该系统结合声学和文本信息学习交互式跨模态表示，并应用对比学习来缩小领域差异，实验结果表明该方法在 NLP 评估标准上显著优于基线方法，表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。

Mar, 2022