Jun, 2024

SD-Eval: 口语对话理解的基准数据集超越文本

TL;DR为了评估和改进大型语言模型在口语对话理解和生成方面的能力,我们提出了 SD-Eval 标准数据集,该数据集聚合了代表情感、口音、年龄和背景声音的四个维度的 7,303 个话语,总计 8.76 个小时的语音数据,并通过客观和主观评估方法,以及基于大型语言模型的指标,证明了在任务定义和模型开发中使用语音的附加信息可以显著提高生成响应的质量。