一种适用所有语言的 “统治者”: 基于对抗多任务学习的多语言对话评价

IJCAIMay, 2018

一种适用所有语言的 “统治者”: 基于对抗多任务学习的多语言对话评价

One "Ruler" for All Languages: Multi-Lingual Dialogue Evaluation with Adversarial Multi-Task Learning

Xiaowei Tong, Zhenxin Fu, Mingyue Shang, Dongyan Zhao, Rui Yan

TL;DR提出了一种跨语言对话评估的 ADVMT 模型，利用神经网络指标对开放域对话系统的表现进行评估，并在两种不同语言的情况下进行评估，结果显示其与人工评估的相关性高于现有指标。

Abstract

Automatic evaluating the performance of open-domain dialogue system is a challenging problem. Recent work in neural network-based metrics has shown promising opportunities for automatic dialogue evaluation. Howev

open-domain dialogue system neural network-based metrics multi-lingual dialogue evaluation adversarial multi-task neural metric human annotation

发现论文，激发创造

多语言自动对话评估

通过使用机器翻译来增强现有的英文对话数据，我们提出了一个绕过数据缺乏问题的方法，用于开发鲁棒的多语言对话评估指标，并通过实验证明，与仅使用源数据微调多语言模型的强基线相比，仅仅使用翻译数据微调预训练的多语言编码器模型的天真方法无法取得更好的性能。相反，最佳方法是通过使用机器翻译质量估计度量仔细策划翻译数据，排除低质量翻译对其性能的影响。

Aug, 2023

DSTC 11 跟踪器 4：开放域对话系统鲁棒性和多语言自动评估指标综述

本文提出神经网络和自动评估方法在对话系统中的应用，特别关注 DSTC11 的自动评估度量标准和结果。

Jun, 2023

迈向自动图灵测试：学习对话响应评估

提出 ADEM 模型用于对话质量的学习式自动评估，其比基于词汇重叠的 BLEU 更能与人类评估相匹配，同时具有泛化评估不同模型的能力。

Aug, 2017

FineD-Eval: 细颗粒自动对话级别评估

本文介绍了一种基于多维度的对话级度量方法，由三个子度量组成，对每个子度量使用新颖的自监督方法进行训练，通过指标组合和多任务学习的方式，综合度量显著优于单一子度量。

Oct, 2022

MDD-Eval：基于增强数据的自训练多领域对话评估

提出了 MDD-Eval 框架，通过对话内评价与跨领域自学得到多领域评价能力，从而使得相较于现有自动对话评价指标，其在 6 个评价基准测试中可以取得 7% 的平均 Spearman 相关性分数的显著提高。

Dec, 2021

揭示 NLG 评估器的致命弱点：由大型语言模型驱动的统一对抗框架

通过引入黑盒对抗性评估框架 AdvEval，利用强大的语言模型作为数据生成器和金标评估器，自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性，实现了对自然语言生成系统进行鲁棒性评估的研究。在 12 个受害评估器和 11 个自然语言生成数据集上的实验证明了 AdvEval 的有效性。

May, 2024

通过人工多重参考研究开放式对话系统的评估

本文旨在通过多参考评估减少开放领域对话系统的自动评估的缺点，研究结果表明，使用多参考评估可以提高几种自动指标与人类判断之间的相关性，无论是对于系统输出的质量还是多样性。

Jul, 2019

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

xDial-Eval: 多语言开放领域对话评估基准

使用预训练语言模型和高质量标注的对话数据，最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上，对这些测量指标在其他语言上的泛化性还没有得到充分研究。因此，为了解决这个问题，我们引入了一个基于英文对话评估数据集的 xDial-Eval 来进行多语言对话评估基准测试，并建立了自监督和多语言基线模型。与 OpenAI 的 ChatGPT 相比，最好的基线模型在所有数据集和语言上的平均 Pearson 相关系数分别提升了 6.5% 和 4.6%，同时具有更少的参数。

Oct, 2023

针对联合多特征和多方言形态建模的对抗多任务学习

本文探索了利用多任务学习和敌对训练方法解决形态丰富的阿拉伯语言以及方言差异问题，并以现代标准阿拉伯语（高资源方言）和埃及阿拉伯语（低资源方言）为案例，在全面的形态标注中取得了最先进的结果。

Oct, 2019