Dec, 2023

AQUALLM:利用大型语言模型生成音频问答数据

TL;DR这篇研究论文介绍了一种基于大型语言模型的可伸缩的 AQA 数据生成流程 (AQUALLM 框架),利用现有的音频描述注释并结合最先进的语言模型生成了丰富、高质量的 AQA 数据集,同时提供了三个广泛和高质量的 AQA 基准数据集,该框架和数据集推动了 AQA 研究的进展,并且所训练的模型在性能上优于现有的最先进模型,而且相比人工注释的训练数据,本数据集上训练的模型表现出更强的泛化能力。