AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。
Sep, 2023
我们提出了一种基于提示工程的文本增强方法,应用于语言查询音频源分离(LASS)任务。该方法利用大型语言模型生成与训练数据集每个句子对应的多个字幕来增强 LASS 的性能。实验结果表明,使用这些增强的字幕训练的 LASS 模型在 DCASE 2024 任务 9 验证集上表现出了比没有增强的模型更好的性能。该研究突出了基于语言模型的字幕增强在推动语言查询音频源分离方面的有效性。
Jun, 2024
利用大型语言模型的处理和推理能力,我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器,以使语言模型能够解释语音输入,并可根据输入模态产生一致的响应。与先前的方法不同,我们的方法能摘要任意领域的口述内容,并通过变化语言模型提示策略产生不同风格的摘要,实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。
Jun, 2024
本文提出了两种新的数据增强方法:1)“音频 - 语言合成增强”(AL-MixGen)和 2)“多层测试时间增强”(Multi-TTA)用于音频和语言的学习;其中 Multi-TTA 可以将测试时间增强一般化到深度学习模型的多个层面。将这些方法引入到基线中,对于音频字幕生成任务可以获得 47.5 SPIDEr 的性能,相比基线提高了 18.2%,模型参数也小了 5 倍,同时在音频 - 文本检索中也超过了基线性能。
Oct, 2022
该研究试图通过将图像字幕数据集中的字幕转移到视频剪辑中,从而消除了在文本 - 视频检索和文本 - 音频检索中缺乏大规模训练数据的难题,并创建了一个大规模音频 - 视频字幕数据集,使得使用这个数据集能够训练出性能优异的多模态转换模型,并在视频检索和视频字幕任务中达到或超越 HowTo100M 预训练 20 倍剪辑所能达到的性能,并且能够实现文本 - 音频预训练,并在音频检索任务中达到最先进的结果。
Apr, 2022
本文提出了一种基于声音对齐、语言属性和翻译的数据增强方法,通过从后缀内存中的文本和音频数据中进行采样,翻译增强后的转录结果,最后重新组合连接的音频段和生成的翻译,不仅训练了机器翻译系统,还使用了基本的现成组件,其资源需求与知识蒸馏相似,但对于五种语言对和两种欧洲议会会议语言对的 CoVoST 2 和 Europarl-ST,在 BLEU 分数上能够持续提高至多 0.9 和 1.1 个点。
Mar, 2022
本文提出了一个对比学习的流程,通过语音数据和自然语言描述来开发一个音频表示,构建了一个对比语音 - 语言预训练模型,通过 LAION-Audio-630K 数据集,并将特征融合机制和关键词 - 标题增强等机制纳入模型设计来增强模型的处理能力,在三个任务中检验模型表现,取得了优秀的性能表现。
Nov, 2022
我们提出了一种用于文本到音频生成的简单的检索增强方法,通过使用检索到的音频文本数据对 TTA 模型的学习进行指导,从而改善了 AudioLDM 模型在长尾数据集上的性能,在 AudioCaps 数据集上,我们的改进模型 Re-AudioLDM 以巨大的优势超越了现有方法,能够生成逼真的音频并具备在复杂场景、罕见音频类别甚至未见过音频类型的潜力。
Sep, 2023