May, 2024
多语言对话代理的准备工作被低估了
Benchmark Underestimates the Readiness of Multi-lingual Dialogue Agents
TL;DR多语种任务对话代理人的创建在训练数据获取成本高的情况下具有挑战性,通过改进训练数据效率的研究趋势,我们首次展示了上下文学习在解决多语种任务对话代理人中的有效性。通过将具有挑战性的对话状态跟踪(DST)子任务分解为更简单、更适合上下文学习的步骤,我们在多语种任务对话数据集X-RiSAWOZ上测试了我们的方法,并在6种语言上获得了以每轮对话的DST准确性为55.6%至80.3%的结果,看似比微调模型的SOTA结果(60.7%至82.8%的准确性)要差;我们在响应生成(RG)子任务上的BLEU分数也明显低于SOTA的结果。然而,在手动评估验证集后,我们发现通过纠正金标签错误和改进数据集注释模式,我们的启示式GPT-4在DST方面可以达到89.6%至96.8%的准确性,并且在不同语言上的响应生成中超过99%的正确率。这使我们得出的结论是,当前的自动度量指标严重低估了上下文学习的有效性。