Aug, 2023

ChatEval:基于多智能体辩论的 LLM 评估器改进

TL;DR通过多代理辩论框架,构建了一个名为 ChatEval 的多代理裁判团队,用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量,分析结果表明 ChatEval 不仅仅提供文本评分,还提供了模拟人类评估过程以进行可靠评估。