SD-Eval: 口语对话理解的基准数据集超越文本

Jun, 2024

SD-Eval: 口语对话理解的基准数据集超越文本

SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words

Junyi Ao, Yuancheng Wang, Xiaohai Tian, Dekun Chen, Jun Zhang...

TL;DR为了评估和改进大型语言模型在口语对话理解和生成方面的能力，我们提出了 SD-Eval 标准数据集，该数据集聚合了代表情感、口音、年龄和背景声音的四个维度的 7,303 个话语，总计 8.76 个小时的语音数据，并通过客观和主观评估方法，以及基于大型语言模型的指标，证明了在任务定义和模型开发中使用语音的附加信息可以显著提高生成响应的质量。

Abstract

speech encompasses a wealth of information, including but not limited to content, paralinguistic, and environmental information. This comprehensive nature of speech significantly impacts communication and is cruc

speech chat-oriented large language models multidimensional evaluation benchmark dataset paralinguistic and environmental information

发现论文，激发创造

xDial-Eval: 多语言开放领域对话评估基准

使用预训练语言模型和高质量标注的对话数据，最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上，对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此，为了解决这个问题，我们引入了一个基于英文对话评估数据集的 xDial-Eval 来进行多语言对话评估基准测试，并建立了自监督和多语言基线模型。与 OpenAI 的 ChatGPT 相比，最好的基线模型在所有数据集和语言上的平均 Pearson 相关系数分别提升了 6.5% 和 4.6%，同时具有更少的参数。

Oct, 2023

SLUE: 自然语音口语理解评估新基准任务

创建适用于口语理解评估的基准任务套件，其中包括命名实体识别、情感分析和语音识别，用于跟踪进展，评估预先训练的表示形式，研究管道与端到端方法的效用。

Nov, 2021

对话短语说话人分离任务（CSSD）：数据集，评估指标和基线

文章介绍了一个新的对话说话人分离任务，即 CSSD 任务，提供了相关数据集和评估指标 CDER，并采用变分贝叶斯 HMM x-vector 系统作为 CSSD 任务的基准模型。

Aug, 2022

针对口语对话理解数据的低成本 LLM 注释研究

自动增强口语对话语料库中的语义表示的研究，评估了大型语言模型微调的相关性、生成注释所捕捉的知识，以及半自动注释的影响。

Jun, 2024

LLM-Eval：用于大型语言模型开放域对话的统一多维自动评估

本文提出了 LLM-Eval，一种针对使用大型语言模型（LLM）的开放领域对话进行多维自动评估的统一方法。通过设计基于单个提示的评估方法来覆盖会话质量的多个方面，LLM-Eval 可以在单个模型调用中进行。我们对 LLM-Eval 在各种基准数据集上的性能进行了全面评估，表明它相对于最先进的评估方法具有高效性和适应性。同时，该分析还强调了选择适当的 LLM 和解码策略以获得准确评估结果的重要性。LMM-Eval 为评估开放领域对话系统提供了一种多功能且强大的解决方案，可以简化评估过程并在不同场景中提供一致的性能。

May, 2023

SLUE Phase-2: 一个不同语种口语理解任务的基准套件

本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务，包括问题回答、摘要、命名实体定位和对话行为分类，旨在补充现有基准测试并解决 SLU 评估领域的差距，为便于比较而发布了基准模型。

Dec, 2022

针对对话推荐系统的合成数据集评估

本研究提出对生成模型产生的数据集进行多方面评估的框架，探讨了各种评估方法的优缺点

Dec, 2022

SIB-200：一个简单、包容和大规模的 200 + 种语言和方言的主题分类评估数据集

我们创建了一个大规模的开源基准数据集 SIB-200，用于解决自然语言理解方面缺乏评估数据集的问题，并在全监督、跨语言迁移和大型语言模型等多个环境中评估，结果显示在众多世界语言中，高资源语言和低资源语言之间仍存在很大差距。我们的研究表明，缺乏预训练多语言语言模型的语言、少数语言家族以及来自非洲、美洲、大洋洲和东南亚地区的语言通常在主题分类数据集上表现最差。希望我们的数据集能鼓励对更多种类语言进行多语言语言模型的包容性评估。

Sep, 2023

西班牙语句子表示的评估基准

通过构建两个评估基准（Spanish SentEval 和 Spanish DiscoEval），我们评估了最近的预先训练的西班牙语语言模型的功能和局限性，这些基准包括大量现有的和新构建的数据集，以解决来自各种领域的不同任务，并发现在对话评估任务的情况下，多语言模型 mBERT 通常提供比仅用西班牙语文档进行训练的模型更丰富的潜在表示。我们希望我们的贡献将激发一种更公正，更可比以及更不繁琐的方式来评估未来的西班牙语语言模型。

Apr, 2022

说话者敏感性响应评估模型

该研究提出了一种基于相邻对话的自动评估模型，利用未标注对话语料库中的说话者定义不同级别的类似上下文，使用推特对话语料库进行实验，表明与其他现有评估指标相比，该模型具有更高的人类标注得分相关性。并展示了在无需额外训练的情况下，将该模型应用于电影对话。

Jun, 2020