Feb, 2024

CriticBench: 评估大型语言模型作为评论家

TL;DR论文介绍了一种用于全面可靠评估大型语言模型 (Large Language Models) 的批评能力的新的基准,该基准包括九个不同的任务,评估了语言模型在不同质量粒度下的批评响应能力,并揭示了批评能力与任务、响应质量和模型规模之间的有趣关系。