AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集

May, 2024

AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations

David Xu

TL;DR我们通过增加自然语言标签和相应的音频信号处理操作，使用大型语言模型提供了一个高质量的训练数据集，该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例，从而改善了模型的性能。

Abstract

multi-modal learning in the audio-language domain has seen significant advancements in recent years. However, audio-language learning faces challenges due to limited and lower-quality data compared to image-langu

multi-modal learning audio-language domain audio-caption pairs large language model audiosetmix

发现论文，激发创造

音频 - 语言表示学习的大规模数据集

我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程，并构建了一个大规模、高质量的音频语言数据集 Auto-ACD，其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务（包括音频语言检索、音频说明和环境分类）上的性能改进，证明了所提出数据集的有效性。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。

Sep, 2023

基于大型语言模型的字幕增强技术提升的语言查询音频源分离性能：DCASE Challenge 2024 任务 9

我们提出了一种基于提示工程的文本增强方法，应用于语言查询音频源分离（LASS）任务。该方法利用大型语言模型生成与训练数据集每个句子对应的多个字幕来增强 LASS 的性能。实验结果表明，使用这些增强的字幕训练的 LASS 模型在 DCASE 2024 任务 9 验证集上表现出了比没有增强的模型更好的性能。该研究突出了基于语言模型的字幕增强在推动语言查询音频源分离方面的有效性。

Jun, 2024

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

使用 MixGen 和多级测试时间增强提高音频语言学习

本文提出了两种新的数据增强方法：1）“音频 - 语言合成增强”（AL-MixGen）和 2）“多层测试时间增强”（Multi-TTA）用于音频和语言的学习；其中 Multi-TTA 可以将测试时间增强一般化到深度学习模型的多个层面。将这些方法引入到基线中，对于音频字幕生成任务可以获得 47.5 SPIDEr 的性能，相比基线提高了 18.2％，模型参数也小了 5 倍，同时在音频 - 文本检索中也超过了基线性能。

Oct, 2022

用合成标题改进文本到音频模型

通过语音标注管道，使用音频语言模型合成准确且多样的音频标注，提供了合成标注数据集以及训练基于合成标注的文本转音频模型，取得了新的最先进的结果。

Jun, 2024

从图像说明中学习音视频模态

该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中，从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题，并创建了一个大规模音频 - 视频字幕数据集，使得使用这个数据集能够训练出性能优异的多模态转换模型，并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能，并且能够实现文本 - 音频预训练，并在音频检索任务中达到最先进的结果。

Apr, 2022

采样、翻译、重组：利用音频对齐进行数据增广的端到端语音翻译

本文提出了一种基于声音对齐、语言属性和翻译的数据增强方法，通过从后缀内存中的文本和音频数据中进行采样，翻译增强后的转录结果，最后重新组合连接的音频段和生成的翻译，不仅训练了机器翻译系统，还使用了基本的现成组件，其资源需求与知识蒸馏相似，但对于五种语言对和两种欧洲议会会议语言对的 CoVoST 2 和 Europarl-ST，在 BLEU 分数上能够持续提高至多 0.9 和 1.1 个点。

Mar, 2022

大规模对比语音语言预训练：特征融合与关键词生成式扩充

本文提出了一个对比学习的流程，通过语音数据和自然语言描述来开发一个音频表示，构建了一个对比语音 - 语言预训练模型，通过 LAION-Audio-630K 数据集，并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力，在三个任务中检验模型表现，取得了优秀的性能表现。

Nov, 2022

检索辅助文本转语音生成

我们提出了一种用于文本到音频生成的简单的检索增强方法，通过使用检索到的音频文本数据对 TTA 模型的学习进行指导，从而改善了 AudioLDM 模型在长尾数据集上的性能，在 AudioCaps 数据集上，我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法，能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。

Sep, 2023

通过优化音频编码增强基于大型语言模型的自动音频字幕生成

增强自动音频字幕生成的方法通过预训练音频编码器、查询变换器和大语言模型，改善了音频标记的准确性和结果性能。

Jun, 2024