May, 2024

多语言对话代理的准备工作被低估了

TL;DR多语种任务对话代理人的创建在训练数据获取成本高的情况下具有挑战性,通过改进训练数据效率的研究趋势,我们首次展示了上下文学习在解决多语种任务对话代理人中的有效性。通过将具有挑战性的对话状态跟踪 (DST) 子任务分解为更简单、更适合上下文学习的步骤,我们在多语种任务对话数据集 X-RiSAWOZ 上测试了我们的方法,并在 6 种语言上获得了以每轮对话的 DST 准确性为 55.6% 至 80.3% 的结果,看似比微调模型的 SOTA 结果(60.7% 至 82.8% 的准确性)要差;我们在响应生成 (RG) 子任务上的 BLEU 分数也明显低于 SOTA 的结果。然而,在手动评估验证集后,我们发现通过纠正金标签错误和改进数据集注释模式,我们的启示式 GPT-4 在 DST 方面可以达到 89.6% 至 96.8% 的准确性,并且在不同语言上的响应生成中超过 99% 的正确率。这使我们得出的结论是,当前的自动度量指标严重低估了上下文学习的有效性。