Feb, 2024

CriticBench: LLMs 评估评论改正推理基准

TL;DR利用 CriticBench 评估和解析 17 个大型语言模型在生成、批评和纠正推理(即 GQC 推理)中的性能,发现 GQC 能力呈线性关系,批评训练显著增强性能,校正效果因任务而异,逻辑导向任务更容易纠正,模型大小增加可以减少 GQC 知识的不一致性,强模型在批评弱模型方面表现更好,而弱模型在自我批评方面却能出人意料地超过强模型,为大型语言模型的批评和自我改进研究提供了深入理解。