CLAP:从自然语言监督中学习音频概念
使用大型语言模型和混淆策略生成音频剪辑的时序对比性描述,并设计新的时序对比损失函数来改进对比性语音 - 文本预训练模型 (T-CLAP),结果在多个下游任务中显示出更强的捕捉音频事件时序关系的能力并显著超越了最先进的模型。
Apr, 2024
研究通过减少数据和计算复杂性来降低对比性语言音频预训练模型的复杂性,得到一个高效模型 ——tinyCLAP,该模型仅使用原 Microsoft CLAP 参数的 6%,在测试的三个声音事件检测数据集上,零样本分类性能仅降低不到 5%。
Nov, 2023
近年来,通过对成对音频和字幕进行数据集的研究,自动生成音频剪辑的描述取得了显著的成功,即自动音频字幕生成(AAC)。然而,收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练(CLAP)最新进展的启发,我们提出了一种弱监督方法来训练 AAC 模型,只需要文本数据和经过预训练的 CLAP 模型,从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中,我们学习从 CLAP 文本嵌入中重构文本,在推断过程中,我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距,我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法,证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。
Sep, 2023
利用对二进制代码进行对比学习,提高其在迁移学习中的性能,通过对齐二进制代码和自然语言解释来生成更好的嵌入表示,而无需特定任务的训练。
Feb, 2024
利用预训练模型,包括 CLIP 和 CLAP 提取特征,结合文本编码嵌入以提高性能,我们提出了一个仅依赖前馈神经网络的简单而有效的模型来处理音频视觉的零样本学习,并在 VGGSound-GZSL、UCF-GZSL 和 ActivityNet-GZSL 等数据集上取得了最先进的性能。
Apr, 2024
我们提出了快速语音 - 文本预训练(FLAP)的自监督方法,通过屏蔽、对比学习和重构来有效地学习对齐的音频和语言表示。FLAP 通过随机丢弃音频频谱标记,仅关注自我监督的剩余标记,以提高效率。通过互模态对比学习,FLAP 学习将配对的音频和文本表示对齐在共享的潜在空间中。值得注意的是,FLAP 通过屏蔽多个增强视图,并学习重构音频标记的屏蔽部分。此外,FLAP 利用大型语言模型(LLM)增强文本输入,以提高性能。这些方法导致更强大和信息丰富的音频 - 文本表示,使得 FLAP 在 AudioCaps(实现了 53.0% 的 R@1)和 Clotho(实现了 25.5% 的 R@1)的音频 - 文本检索任务中达到最先进的性能。
Nov, 2023
本文介绍了一种名为 CLIP-AAC 的自动音频字幕系统,该系统结合声学和文本信息学习交互式跨模态表示,并应用对比学习来缩小领域差异,实验结果表明该方法在 NLP 评估标准上显著优于基线方法,表明预训练模型和对比学习对该模型的性能提升贡献都非常重要。
Mar, 2022
本文提出了一个对比学习的流程,通过语音数据和自然语言描述来开发一个音频表示,构建了一个对比语音 - 语言预训练模型,通过 LAION-Audio-630K 数据集,并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力,在三个任务中检验模型表现,取得了优秀的性能表现。
Nov, 2022
我们提出了一种自动音频字幕的新框架 EnCLAP,使用了两个声学表示模型 EnCodec 和 CLAP 以及一个预训练语言模型 BART。我们还引入了一种称为 masked codec modeling 的新训练目标,提高了预训练语言模型的声学感知能力。在 AudioCaps 和 Clotho 上的实验结果表明,我们的模型超过了基准模型的性能。我们将在此网址上提供源代码。在线演示可在此网址上获得。
Jan, 2024
利用预训练模型和未标注视频数据,本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点,并通过传输模式来进一步提升性能。
Jun, 2023