Jan, 2024

大型语言模型是否可信用于评估?通过代理辩论对大型语言模型作为评估者进行可扩展元评估

TL;DR通过多轮讨论辅助的 ScaleEval 元评估框架,充分利用多个交流能力的大语言模型代理进行可伸缩元评估,帮助人工标注员判断最有能力的大语言模型作为评估者,从而显著减轻他们的工作量。