May, 2023

评估无法评估的内容:无法评估生成响应的质量

TL;DR本研究构建了两个方言生成数据集 KdConv-ADV 和 DSTC7-ADV 以综合评估基于 LLMs 的评估器的可靠性,并发现使用基于 LLMs 的参考无关评估器评估对话响应的风险存在。