Aug, 2023

简单的 LLM 提示是稳健多语言对话评估的尖端技术

TL;DR研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式,提出了一种新颖的框架,以实现对对话的鲁棒性和多语言性评估能力,并在多个基准测试中取得了最先进的成果,并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅,证明了提示性大语言模型的评估能力。