MDIA:46 种语言多语对话生成的基准
使用预训练语言模型和高质量标注的对话数据,最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上,对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此,为了解决这个问题,我们引入了一个基于英文对话评估数据集的 xDial-Eval 来进行多语言对话评估基准测试,并建立了自监督和多语言基线模型。与 OpenAI 的 ChatGPT 相比,最好的基线模型在所有数据集和语言上的平均 Pearson 相关系数分别提升了 6.5% 和 4.6%,同时具有更少的参数。
Oct, 2023
通过使用机器翻译来增强现有的英文对话数据,我们提出了一个绕过数据缺乏问题的方法,用于开发鲁棒的多语言对话评估指标,并通过实验证明,与仅使用源数据微调多语言模型的强基线相比,仅仅使用翻译数据微调预训练的多语言编码器模型的天真方法无法取得更好的性能。相反,最佳方法是通过使用机器翻译质量估计度量仔细策划翻译数据,排除低质量翻译对其性能的影响。
Aug, 2023
本文介绍了一个新的跨方言语音数据集,用于英语印度、尼日利亚和美国口音。该数据集通过提示参与者执行一系列短的信息分享任务来平衡开放式对话和面向任务的对话,以促进量化的跨方言比较,并避免对方言特征表现的限制性任务结构的强制性。初步分析表明该数据集在语法和话语标记的使用上有显着差异。该数据集包括超过 20 个小时的音频和超过 200,000 个正字法转录的标记,并已公开发布。
May, 2023
提出了一种跨语言对话评估的 ADVMT 模型,利用神经网络指标对开放域对话系统的表现进行评估,并在两种不同语言的情况下进行评估,结果显示其与人工评估的相关性高于现有指标。
May, 2018
多语种任务对话代理人的创建在训练数据获取成本高的情况下具有挑战性,通过改进训练数据效率的研究趋势,我们首次展示了上下文学习在解决多语种任务对话代理人中的有效性。通过将具有挑战性的对话状态跟踪 (DST) 子任务分解为更简单、更适合上下文学习的步骤,我们在多语种任务对话数据集 X-RiSAWOZ 上测试了我们的方法,并在 6 种语言上获得了以每轮对话的 DST 准确性为 55.6% 至 80.3% 的结果,看似比微调模型的 SOTA 结果(60.7% 至 82.8% 的准确性)要差;我们在响应生成 (RG) 子任务上的 BLEU 分数也明显低于 SOTA 的结果。然而,在手动评估验证集后,我们发现通过纠正金标签错误和改进数据集注释模式,我们的启示式 GPT-4 在 DST 方面可以达到 89.6% 至 96.8% 的准确性,并且在不同语言上的响应生成中超过 99% 的正确率。这使我们得出的结论是,当前的自动度量指标严重低估了上下文学习的有效性。
May, 2024
DIALIGHT 是一个用于开发和评估多语言任务导向对话系统的工具包,它通过使用预训练语言模型(PLMs)的微调以及利用大型语言模型(LLMs)的零 - shot 和上下文学习能力,促进了多种 ToD 系统之间的系统化评估和比较。我们的评估发现,虽然 PLM 的微调可以提高准确性和一致性,但基于 LLM 的系统在产生不同且受欢迎的回应方面表现出色。然而,我们也发现 LLMs 在遵守任务特定指令和生成多语言输出方面存在重大挑战,为未来研究提供了重要的方向。我们希望这个开放源代码的工具包将成为开发和适当评估多语言 ToD 系统的研究人员的宝贵资源,并降低当前在该领域的入门门槛。
Jan, 2024
本文介绍了 MIA 2022 workshop 关于跨语言信息检索中的开放式提取问题回答(QA)系统评估的结果,并评估了 16 种语言中的系统性能表现。通过对 14 种语言的大规模跨语言开放式提取 QA 数据集进行改编以及对 Tagalog 和 Tamil 两种语言进行新的标记,共有 4 支队伍提交了他们的系统,最佳系统借助多样化的负样本和更大的预训练模型实现了 32.2 的 F1 值,而第二名则在 Tamil 语言的检索中取得了显著的进展。
Jul, 2022
研究了具有多种可能响应的对话,并使用多元会话数据集平衡高分歧因素 (10) 和若干次对话 (6),通过选择性分支延续。为了评估多样化生成的不同任务,我们提出了一个简单的评分算法,基于二分图匹配来最佳整合一组多样参考。最终任务是理解听众期望反应的可控制生成任务,利用文本属性从预训练分类器自动诱导多层次预测会话深度的多个语言生成任务的研究。
Feb, 2021
我们引入了一个新的基准数据集 MULTITuDE,用于多语言机器生成文本检测,包括 11 种语言(ar,ca,cs,de,en,es,nl,pt,ru,uk 和 zh)的 74,081 个真实和机器生成的文本,由 8 个多语言 LLM 生成。利用这个基准,我们比较了零样本(统计和黑盒)和微调检测器的性能,并考虑多语言性,评估了这些检测器在未见过的语言(语言相似和不相似)和未见过的 LLMs 上的泛化性和这些检测器在培训多种语言时是否提高了性能。
Oct, 2023