Nov, 2023

对话评估工作台:将 LLMs 作为类人对话系统进行评估

TL;DR本文提出了 DialogBench,这是一个用于评估 LLMs 作为类似人类对话系统的能力的对话评估基准,包含 12 个对话任务。通过对 28 个 LLMs 进行广泛的测试,结果表明虽然细化调整能改善 LLMs 的人类对话系统相似度,但对于大多数 LLMs 仍有提升空间。