Feb, 2024

指代表达生成的内在任务评估

TL;DR提出了一种基于内在任务的评估协议,针对对话生成模型中的表述生成模型进行了综合性评估,发现新的评估协议能更准确和可靠地评估每个模型的性能。