Jun, 2024

基于大型语言模型的字幕增强技术提升的语言查询音频源分离性能:DCASE Challenge 2024 任务 9

TL;DR我们提出了一种基于提示工程的文本增强方法,应用于语言查询音频源分离(LASS)任务。该方法利用大型语言模型生成与训练数据集每个句子对应的多个字幕来增强 LASS 的性能。实验结果表明,使用这些增强的字幕训练的 LASS 模型在 DCASE 2024 任务 9 验证集上表现出了比没有增强的模型更好的性能。该研究突出了基于语言模型的字幕增强在推动语言查询音频源分离方面的有效性。