多语言自动对话评估

Aug, 2023

Towards Multilingual Automatic Dialogue Evaluation

John Mendonça, Alon Lavie, Isabel Trancoso

TL;DR通过使用机器翻译来增强现有的英文对话数据，我们提出了一个绕过数据缺乏问题的方法，用于开发鲁棒的多语言对话评估指标，并通过实验证明，与仅使用源数据微调多语言模型的强基线相比，仅仅使用翻译数据微调预训练的多语言编码器模型的天真方法无法取得更好的性能。相反，最佳方法是通过使用机器翻译质量估计度量仔细策划翻译数据，排除低质量翻译对其性能的影响。

Abstract

The main limiting factor in the development of robust multilingual dialogue evaluation metrics is the lack of multilingual data and the li

multilingual dialogue evaluation metrics multilingual data pretrained llm machine translation

发现论文，激发创造

一种适用所有语言的 “统治者”: 基于对抗多任务学习的多语言对话评价

提出了一种跨语言对话评估的 ADVMT 模型，利用神经网络指标对开放域对话系统的表现进行评估，并在两种不同语言的情况下进行评估，结果显示其与人工评估的相关性高于现有指标。

May, 2018

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

利用大语言模型学习低资源语言的翻译质量评估

使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的 BLEURT 模型性能。

Feb, 2023

跨语言中间微调改进对话状态跟踪

该论文提出了一种在预训练多语言模型之间进行跨语言传递学习的方法，通过中间微调预训练的多语言模型，使其适用于不同但相关的数据和 / 或任务，以提高对话系统的性能。

Sep, 2021

利用机器翻译增强多语言分类

利用机器翻译来调整多语言模型以进行分类任务在多种语言之间产生一定的效果，并且通过一种新颖的技术可以改善模型对翻译数据的负面影响。

May, 2024

DSTC 11 跟踪器 4：开放域对话系统鲁棒性和多语言自动评估指标综述

本文提出神经网络和自动评估方法在对话系统中的应用，特别关注 DSTC11 的自动评估度量标准和结果。

Jun, 2023

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

为机器翻译学习紧凑的度量

使用 RemBERT 模型的实验表明，模型大小限制了跨语言转换的效率，将知识从一名教师传递到以相关语言训练的多个学生可以通过蒸馏解决这个问题，该方法可以使性能提高 10.5％，并仅使用 RemBERT 的三分之一的参数即可达到 92.6％的性能。

Oct, 2021

评估土耳其语系多语言多向 NMT 技术

本研究通过对土耳其语系 22 种语言的大规模机器翻译系统的培训和评估，发现 MNMT 模型在领域外测试集中的表现优于几乎所有双语基线，并在单对下游任务的微调中也获得了巨大的性能提升。

Sep, 2021

Tencent WMT22 大规模非洲语言多语言机器翻译系统

本文介绍了腾讯的多语言机器翻译系统，该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题，其中在 WMT22 的有限数据情况下，取得了第一名的成绩。

Oct, 2022