使用 MixGen 和多级测试时间增强提高音频语言学习

Oct, 2022

使用 MixGen 和多级测试时间增强提高音频语言学习

Improving Audio-Language Learning with MixGen and Multi-Level Test-Time Augmentation

Eungbeom Kim, Jinhee Kim, Yoori Oh, Kyungsu Kim, Minju Park...

TL;DR本文提出了两种新的数据增强方法：1）“音频 - 语言合成增强”（AL-MixGen）和 2）“多层测试时间增强”（Multi-TTA）用于音频和语言的学习；其中 Multi-TTA 可以将测试时间增强一般化到深度学习模型的多个层面。将这些方法引入到基线中，对于音频字幕生成任务可以获得 47.5 SPIDEr 的性能，相比基线提高了 18.2％，模型参数也小了 5 倍，同时在音频 - 文本检索中也超过了基线性能。

Abstract

In this paper, we propose two novel augmentation methods 1) audio-language MixGen (AL-MixGen) and 2) multi-level test-time augmentation (Multi-TTA) for →

audio-language learning augmentation methods test-time augmentation deep learning model audio captioning

发现论文，激发创造

MixGen：一种新型多模态数据增强方法

本文介绍 MixGen：一种联合数据增强技术，利用插值和拼接文本的方式生成并保留了图像和文本之间的语义关系，已被应用于现有的一些数据处理流程中，我们在 CLIP、ViLT、ALBEF、TCL 等 4 个框架上进行验证，发现 MixGen 可以显著提高模型性能，尤其在 ALBEF 预训练中，MixGen 在图像文本检索、视觉推理和其他相关任务中获得了较大的提升。

Jun, 2022

AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集

我们通过增加自然语言标签和相应的音频信号处理操作，使用大型语言模型提供了一个高质量的训练数据集，该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例，从而改善了模型的性能。

May, 2024

检索辅助文本转语音生成

我们提出了一种用于文本到音频生成的简单的检索增强方法，通过使用检索到的音频文本数据对 TTA 模型的学习进行指导，从而改善了 AudioLDM 模型在长尾数据集上的性能，在 AudioCaps 数据集上，我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法，能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。

Sep, 2023

通过测试时间增强来改进文本分类

本文提出了一种改进的测试时间增强技术并设计出相应的增强策略，结果表明用于语言模型上的测试时间增强可以显著提高模型的准确性。

Jun, 2022

Make-An-Audio 2：时间增强的文本转音频生成

该论文提出了基于潜在扩散的 T2A 方法 ——Make-an-Audio 2，通过使用预训练的大型语言模型，设计了一些技术来提高语义一致性和时间一致性，并利用 LLMs 将大量音频标签数据变成音频 - 文本数据集。实验证明，该方法在客观指标和主观指标上均优于基线模型，并在时间信息理解、语义一致性和音质方面取得了显著进展。

May, 2023

采样、翻译、重组：利用音频对齐进行数据增广的端到端语音翻译

本文提出了一种基于声音对齐、语言属性和翻译的数据增强方法，通过从后缀内存中的文本和音频数据中进行采样，翻译增强后的转录结果，最后重新组合连接的音频段和生成的翻译，不仅训练了机器翻译系统，还使用了基本的现成组件，其资源需求与知识蒸馏相似，但对于五种语言对和两种欧洲议会会议语言对的 CoVoST 2 和 Europarl-ST，在 BLEU 分数上能够持续提高至多 0.9 和 1.1 个点。

Mar, 2022

TaskMix: 口语意图理解元学习的数据增强

本论文探讨了元学习在传递相关任务的知识方面的研究方向，发现在低任务多样性下，最先进的数据增强方法会恶化过拟合问题；为此，提出了一种称为 TaskMix 的简单方法以缓解过拟合问题和改善性能。

Sep, 2022

使用指令调整的 LLM 和潜在扩散模型生成文本到语音

本研究采用基于指令调整的大型语言模型 Flan-T5 作为文本编码器，通过使用基于声音压力级的声音混合来进行训练集增强，从而取得了比 AudioLDM 更好的结果，成为了生成文字描述音频的任务中的最佳选择。

Apr, 2023

智能多视图测试时间增强

通过智能测试时间增强 (TTA) 算法，在视角变化的情况下提高图像分类模型的稳健性和准确性，该方法根据预测不确定性指标智能选择最佳增强方法，并通过两个阶段的过程来实现该选择，实验验证证明这种方法可以在多个数据集和神经网络架构上获得平均准确率提高 1.73%，突出了在智能增强策略方面进一步探索的潜力。

Jun, 2024

AudioLDM：使用潜在扩散模型进行文本到音频生成

本文介绍了一种基于潜在空间的 Text-to-audio（TTA）系统 AudioLDM，它使用对比语音 - 语言预训练（CLAP）潜在信息学习连续音频表示，并以文本嵌入作为采样条件，从而在生成质量和计算效率方面具有优势，实测效果接近官方记录，并可以进行零 - shot 文本引导音频操作，如风格转移。

Jan, 2023