基于大型语言模型的字幕增强技术提升的语言查询音频源分离性能：DCASE Challenge 2024 任务 9

Jun, 2024

基于大型语言模型的字幕增强技术提升的语言查询音频源分离性能：DCASE Challenge 2024 任务 9

Performance Improvement of Language-Queried Audio Source Separation Based on Caption Augmentation From Large Language Models for DCASE Challenge 2024 Task 9

PDF

Do Hyun Lee, Yoonah Song, Hong Kook Kim

TL;DR我们提出了一种基于提示工程的文本增强方法，应用于语言查询音频源分离（LASS）任务。该方法利用大型语言模型生成与训练数据集每个句子对应的多个字幕来增强 LASS 的性能。实验结果表明，使用这些增强的字幕训练的 LASS 模型在 DCASE 2024 任务 9 验证集上表现出了比没有增强的模型更好的性能。该研究突出了基于语言模型的字幕增强在推动语言查询音频源分离方面的有效性。

Abstract

We present a prompt-engineering-based text-augmentation approach applied to a language-queried audio source separation (LASS) task. To enh

prompt-engineering text-augmentation language-queried audio source separation large language models caption augmentation

发现论文，激发创造

描述与分离：基于语言查询的音频源分离

该研究介绍了一种语言查询音频源分离（LASS）任务，该任务通过基于目标源的自然语言查询（例如，“一个男人讲笑话，接着人们笑了”）从音频混合物中分离出目标源。为了解决这个问题，作者提出了一个名为 LASS-Net 的端到端神经网络，它能够共同处理声学和语言信息，并从音频混合物中分离出与语言查询一致的目标源。实验结果表明，LASS-Net 相较于基线方法有明显的提升，并展示了良好的泛化性能，表明其在实际场景中的潜力。

Mar, 2022

AudioSetMix: 用 LLM 辅助增强音频 - 语言数据集

我们通过增加自然语言标签和相应的音频信号处理操作，使用大型语言模型提供了一个高质量的训练数据集，该数据集在文本和音频相关模型的基准测试中提供了多样化且更好对齐的示例，从而改善了模型的性能。

May, 2024

描述的任何事物分开

通过自然语言查询实现了语言查询音频源分离（LASS），并为开放领域的音频分隔提供了 AudioSep 基础模型，展示了强大的分隔性能和令人印象深刻的零 - shot 推广能力。

Aug, 2023

通过优化音频编码增强基于大型语言模型的自动音频字幕生成

增强自动音频字幕生成的方法通过预训练音频编码器、查询变换器和大语言模型，改善了音频标记的准确性和结果性能。

Jun, 2024

HowToCaption: 规模化促使 LLMs 转化视频注释

利用大型语言模型从自动语音识别摘要中创建与视频对齐的细致视频描述，以达到大规模教学视频数据训练文本 - 视频模型的目的。这项工作应用于 HowTo100M 数据集的副标题，创建了一个新的大规模数据集 HowToCaption，其结果不仅显著改善了许多不同基准数据集上的文本 - 视频检索性能，还将文本叙述与音频相分离，在文本 - 视频 - 音频任务中提升了性能。

Oct, 2023

使用音频启动大型语言模型进行通用语音摘要

利用大型语言模型的处理和推理能力，我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器，以使语言模型能够解释语音输入，并可根据输入模态产生一致的响应。与先前的方法不同，我们的方法能摘要任意领域的口述内容，并通过变化语言模型提示策略产生不同风格的摘要，实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。

Jun, 2024

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一，在 ClothoV2 基准测试中的表现优于当前的最新技术，提高了 5.6 个百分点的 mAP@10。

Aug, 2023

自动音频字幕和基于语言的音频检索

参加了 DCASE 2022 比赛的两个子任务：自动音频字幕和基于语言的音频检索。在 Clotho 数据集上评估使用多种评估指标的基线模型和一些实验，分别对音频字幕和语音检索任务的最终表现进行了改进。

Jul, 2022

用合成标题改进文本到音频模型

通过语音标注管道，使用音频语言模型合成准确且多样的音频标注，提供了合成标注数据集以及训练基于合成标注的文本转音频模型，取得了新的最先进的结果。

Jun, 2024

NTT DCASE2020 Challenge Task 6 系统：使用关键字和句子长度估计的自动音频字幕

该报告介绍参加 DCASE 2020 挑战 Task 6 的系统，侧重于使用多任务学习解决自动音频字幕生成中的不确定性问题，并通过在开发测试数据集上测试简化模型，实现了 20.7 的 SPIDEr 得分，远高于基线系统的 5.4。

Jul, 2020