Wav2CLIP：从CLIP中学习稳健的音频表示

Oct, 2021

Wav2CLIP：从CLIP中学习稳健的音频表示

Wav2CLIP: Learning Robust Audio Representations From CLIP

Ho-Hsiang Wu, Prem Seetharaman, Kundan Kumar, Juan Pablo Bello

TL;DR通过从对比语言-图像预训练中提炼得出的Wav2CLIP，我们提出了一种稳健的音频表示学习方法。在分类、检索和生成等各种音频任务上，我们系统评估了Wav2CLIP，并表明Wav2CLIP可以胜过公开可用的多种预训练音频表示算法。Wav2CLIP将音频投影到与图像和文本共享的嵌入空间中，实现了零样本分类和跨模态检索等多模态应用。此外,Wav2CLIP只需要约10%的数据就能达到与全监督模型竞争性能的结果，且比竞品方法更高效，因为它不需要学习视觉模型来辅助听觉模型的学习。最后，我们通过Wav2CLIP说明了图像生成，作为共享嵌入空间的定性评估。

Abstract

We propose wav2clip, a robust audio representation learning method by distilling from contrastive language-image pre-training (CLIP). We s

发现论文，激发创造

wav2vec: 语音识别的无监督预训练

本研究通过对原始音频进行特征学习，探索无监督的语音识别预训练方法，在大量无标注音频数据上进行训练，结果表示所得到的特征对提高声学模型训练有积极意义。在WSJ测试中，仅使用少量已识别数据，我们的方法成功将WER从传统的log-mel filterbank上降低了最多36％，最终的WER为2.43％，使用的标注数据量较Deep Speech 2少两个数量级。

Apr, 2019

wav2vec 2.0：自监督学习语音表示的框架

本研究首次证明了从语音音频中学习强大的表征，然后在经过转录的语音上进行微调可以胜过最好的半监督方法，而且概念上更简单，示范了在有限标注数据情况下实现语音识别的可行性。

Jun, 2020

AudioCLIP: 将CLIP扩展到图像、文本和音频

本研究提出了一个扩展CLIP模型，使用AudioSet数据集来支持音频的双模和单模分类以及查询，同时保持了CLIP模型的零样本推理能力。此模型在环境声音分类任务上取得了新的最佳结果，并评估了提出模型的跨模态查询表现以及全量和部分训练对结果的影响。

Jun, 2021

WAVPROMPT: 冻结语言模型进行少样本口语理解

介绍了一种名为WavPrompt的语音理解框架，该框架使用预先训练的自回归语言模型，通过微调一种wav2vec模型生成一系列音频嵌入来实现在音频文本场景下的 few-shot 学习能力。实验表明，WavPrompt在执行语音理解任务时表现出比朴素的文本基线更好的表现，并且能够提取更多的信息。

Mar, 2022

WavThruVec: 基于中间特征的语音合成中的潜在语音表示

WavThruVec is a two-stage neural text-to-speech architecture that uses high-dimensional Wav2Vec 2.0 embeddings as intermediate speech representation, allowing the model to be trained on large-scale untranscribed audio corpora and present useful properties enabling tasks like voice conversion or zero-shot synthesis.

Mar, 2022

SLICER:使用低资源自监督预训练学习通用音频表示

SLICER是一种使用自监督学习技术的先前编码器的新方法，可以减少音频和语音分类需要大量标记数据的情况。它使用聚类和对比学习范例的组合来提高语音表示学习的效果，并进行实例和聚类层对比学习任务。此外，它还使用了一种新的mel频谱增强程序k-mix，无需标签，并有助于音频的无监督表示学习。

Nov, 2022

WavCaps: 基于 ChatGPT 辅助的弱标注音频字幕数据集，用于音频-语言多模态研究

本文介绍了 WavCaps 音频字幕数据集的构建方法，结合 ChatGPT 模型处理嘈杂的原始描述，最终得到了一个高质量的数据集。该数据集应用在多个音频-语言多模态学习任务中，取得了较大的进展。

Mar, 2023

使用未标记的视频和预训练语言-视觉模型进行文本-音频合成的 CLIPSonic

利用预训练模型和未标注视频数据，本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点，并通过传输模式来进一步提升性能。

Jun, 2023

CLIP能帮助声源定位吗？

利用大规模预训练的图像-文本模型对声源定位进行了扩展，通过音频信号与图像的对应关系，生成音频驱动的嵌入向量，以此对提供的音频生成驱动遮罩，并提取高亮区域的音频驱动图像特征，并与音频驱动的嵌入向量进行对齐，实现声音对象的更完整和更紧凑的定位图。广泛实验证明，该方法在表现上优于最先进的方法。

Nov, 2023

估计音频-标题对应关系改善基于语言的音频检索

本研究解决了音频检索系统中，由于仅使用匹配的音频-标题对，导致的语义匹配不足的问题。提出了一种两阶段的训练方法，通过利用预测的音频-标题对应关系来改进模型的表现。研究结果表明，该方法在ClothoV2基准上，比当前最优技术提高了1.6个百分点的检索性能。

Aug, 2024