Aug, 2023
ChatEval:基于多智能体辩论的 LLM 评估器改进
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate
Chi-Min Chan, Weize Chen, Yusheng Su, Jianxuan Yu, Wei Xue...
TL;DR通过多代理辩论框架,构建了一个名为 ChatEval 的多代理裁判团队,用于自主讨论和评估不同模型在开放性问题和传统自然语言生成任务中生成响应的质量,分析结果表明 ChatEval 不仅仅提供文本评分,还提供了模拟人类评估过程以进行可靠评估。