Jan, 2024
大型语言模型是否可信用于评估?通过代理辩论对大型语言模型作为评估者进行可扩展元评估
Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate
TL;DR通过多轮讨论辅助的 ScaleEval 元评估框架,充分利用多个交流能力的大语言模型代理进行可伸缩元评估,帮助人工标注员判断最有能力的大语言模型作为评估者,从而显著减轻他们的工作量。