通过视觉知识转移在无平行数据的情况下，连接音频和文本之间的关联

ACLDec, 2021

通过视觉知识转移在无平行数据的情况下，连接音频和文本之间的关联

Connecting the Dots between Audio and Text without Parallel Data through Visual Knowledge Transfer

Yanpeng Zhao, Jack Hessel, Youngjae Yu, Ximing Lu, Rowan Zellers...

TL;DR提出了一种称为 VIP-ANT 的模型，实现了音频文本无对齐数据的自动对齐，应用在零 - shot 音频分类和字幕检索任务中取得了良好的性能，甚至超越了更传统的监督学习模型。同时也发现，虽然仅需一些监督数据就可以提高性能，但达到人类水平仍然需要更大规模的数据。

Abstract

Machines that can represent and describe environmental soundscapes have practical potential, e.g., for audio tagging and captioning systems. Prevailing learning paradigms have been relying on parallel audio-text data, which is, however, scarcely available on the web. We propose VIP-ANT that induces \textbf{A}udio-\textbf{T}ext alignment without using any par

audio-text alignment zero-shot learning audio classification caption retrieval supervised learning

发现论文，激发创造

音频文本跨模态表示的无监督改进

本文研究了使用无配对数据进行无监督学习的方法，结合领域特定的有软标签的对比损失方法可以显著提高跨模态音频 - 文本表示学习的效果及其在零样本分类任务中的性能。

May, 2023

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022

使用未标记的视频和预训练语言 - 视觉模型进行文本 - 音频合成的 CLIPSonic

利用预训练模型和未标注视频数据，本研究提出了一个新的方法来实现从文本到音频的合成。研究使用频繁出现的视听对应来克服高质量文本标注存在的难点，并通过传输模式来进一步提升性能。

Jun, 2023

基于视觉语音的大规模表征学习

这篇论文描述了一种可扩展的方法来自动生成不同的音频来为图像提供字幕，并且通过使用双编码器来对音频和图像进行编码，使用掩码边界软最大损失对这些模型进行微调，并在 Flickr8k 音频字幕语料库上实现了最新的结果。

Sep, 2019

上下文中的音频文本检索

本文通过使用音频特征和序列聚合方法来提高音频 - 文本对齐的准确性，并观察到在上下文检索中，语义映射比时间关系重要。结果表明，该系统在所有指标上均显著提高了双向音频文本检索。

Mar, 2022

基于文本 - only 训练实现的弱监督自动音频字幕生成

近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种弱监督方法来训练 AAC 模型，只需要文本数据和经过预训练的 CLAP 模型，从而减轻了对配对目标数据的需求。我们的方法利用 CLAP 中音频和文本嵌入之间的相似性。在训练过程中，我们学习从 CLAP 文本嵌入中重构文本，在推断过程中，我们使用音频嵌入进行解码。为了减小音频和文本嵌入之间的模态差距，我们采用了在训练和推断阶段桥接差距的策略。我们在 Clotho 和 AudioCaps 数据集上评估了我们提出的方法，证明其相对于使用配对目标数据训练的完全监督方法可达到高达 83% 的性能水平。

Sep, 2023

使用 WavText5K 和 CLAP 训练进行音频检索

本文提出了一个新的 Web 音频文本检索框架，使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接，包括多个数据集的使用，取得了相对于 AudioCaps 和 Clotho 在文本 - 音频检索上 2％和 16％的提高，对于音频 - 文本检索上的 6％和 23％的提高。

Sep, 2022

视频同步的文本到语音生成

近期，研究人员在文本转语音生成方面的关注度不断增加，本研究提出了一个名为 T2AV-Bench 的创新基准和一个简单而有效的视频对齐文本到音频生成模型 T2AV，通过整合视觉对齐的文本嵌入到生成模型中，通过时间多头注意力转换器从视频数据中提取和理解时间细微差异，并通过 Audio-Visual ControlNet 将时态视觉表示与文本嵌入精确地融合，进一步增强集成性，以确保视觉对齐和时间一致性。经过对 AudioCaps 和 T2AV-Bench 的广泛评估，T2AV 在视觉对齐和时间一致性上设立了新的标准。

Mar, 2024

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本 - 视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一，在 ClothoV2 基准测试中的表现优于当前的最新技术，提高了 5.6 个百分点的 mAP@10。

Aug, 2023