音频文本跨模态表示的无监督改进

May, 2023

音频文本跨模态表示的无监督改进

Unsupervised Improvement of Audio-Text Cross-Modal Representations

Zhepei Wang, Cem Subakan, Krishna Subramani, Junkai Wu, Tiago Tavares...

TL;DR本文研究了使用无配对数据进行无监督学习的方法，结合领域特定的有软标签的对比损失方法可以显著提高跨模态音频 - 文本表示学习的效果及其在零样本分类任务中的性能。

Abstract

Recent advances in using language models to obtain cross-modal audio-text representations have overcome the limitations of conventional training approaches that use predefined labels. This has allowed the community to make progress in tasks like zero-shot classification, which would ot

audio-text representations unsupervised learning zero-shot classification domain-specific curation contrastive loss

发现论文，激发创造

通过视觉知识转移在无平行数据的情况下，连接音频和文本之间的关联

提出了一种称为 VIP-ANT 的模型，实现了音频文本无对齐数据的自动对齐，应用在零 - shot 音频分类和字幕检索任务中取得了良好的性能，甚至超越了更传统的监督学习模型。同时也发现，虽然仅需一些监督数据就可以提高性能，但达到人类水平仍然需要更大规模的数据。

Dec, 2021

语音和文本嵌入空间的无监督交叉模态对齐

该研究提出了一种无监督的跨模态对齐框架，通过对抗训练和优化过程来实现语音和文本的嵌入空间对齐，从而帮助开发对低资源语言进行语音识别和语音到文本翻译的自动化系统，并且在分类和翻译任务上的表现与监督的方法相媲美。

May, 2018

多模态自监督学习通用音频表示

通过使用多模态框架，在训练音频表征时利用视频信息和加入混合样本的数据增强，本研究的对比学习框架成功地实现了在非语义音频任务上的领先水平。

Apr, 2021

上下文中的音频文本检索

本文通过使用音频特征和序列聚合方法来提高音频 - 文本对齐的准确性，并观察到在上下文检索中，语义映射比时间关系重要。结果表明，该系统在所有指标上均显著提高了双向音频文本检索。

Mar, 2022

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022

完美匹配：音频 - 视觉同步的改进型跨模态嵌入

该论文提出了一种新的跨模态嵌入学习策略，通过多路匹配问题学习嵌入，显著提升了音频到视频同步任务的表现，并用学习到的嵌入进行自我监督的视觉语音识别。

Sep, 2018

看似相似，听起来不同：利用反事实的跨模态样本进行视听表示学习

研究了在音频与视觉之间进行对应时，出现多个音频轨道时的学习效果，探讨了使用配音版本来增加跨模态对比学习的方法，提出了考虑语音变化时学习场景级别的音频视觉对应关系的重要性，并表明配音可以作为训练音频视觉模型的一种有用增强技术。

Apr, 2023

泛零样本音频到意图分类

利用仅有每个意图几个样本文本句子的泛化零样本音频到意图分类框架，该框架使用只有音频的数据，通过训练有监督的音频到意图分类器和利用神经音频合成器生成音频嵌入，使用余弦相似度对未见过的意图进行泛化零样本分类，并通过多模态训练策略将词汇信息融入音频表征来提高泛化零样本性能。相较于仅使用音频训练，我们的多模态训练方法提高了 SLURP 和内部目标导向对话数据集上未见过的意图的零样本意图分类准确率分别为 2.75％和 18.2％。

Nov, 2023