Aug, 2023

ChatEval:基于多智能体辩论的LLM评估器改进

TL;DR通过多代理辩论框架,构建了一个名为ChatEval的多代理裁判团队,用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量,分析结果表明ChatEval不仅仅提供文本评分,还提供了模拟人类评估过程以进行可靠评估。