CriticBench: 评估大型语言模型作为评论家

Feb, 2024

CriticBench: 评估大型语言模型作为评论家

CriticBench: Evaluating Large Language Models as Critic

Tian Lan, Wenwei Zhang, Chen Xu, Heyan Huang, Dahua Lin...

TL;DR论文介绍了一种用于全面可靠评估大型语言模型 (Large Language Models) 的批评能力的新的基准，该基准包括九个不同的任务，评估了语言模型在不同质量粒度下的批评响应能力，并揭示了批评能力与任务、响应质量和模型规模之间的有趣关系。

Abstract

critique ability are crucial in the scalable oversight and self-improvement of large language models (LLMs). While many recent studies explore the critique ability of LLMs to judge and refine flaws in generations

critique ability large language models measure evaluation benchmark

发现论文，激发创造

大型语言模型的批判能力

这项研究探索了大语言模型的批判能力，并开发了一个评估框架来评估模型的能力，发现批判一般对大多数模型来说都很具有挑战性，而自我批判尤其困难。研究还介绍了一种名为自我检查的简单而有效的基准方法，以提高各种模型的任务表现。希望这项研究能为理解大语言模型的批判能力提供初步的探索，并在促进未来研究和更好地应用批判于不同任务方面发挥指导作用。

Oct, 2023

CriticBench: LLMs 评估评论改正推理基准

利用 CriticBench 评估和解析 17 个大型语言模型在生成、批评和纠正推理（即 GQC 推理）中的性能，发现 GQC 能力呈线性关系，批评训练显著增强性能，校正效果因任务而异，逻辑导向任务更容易纠正，模型大小增加可以减少 GQC 知识的不一致性，强模型在批评弱模型方面表现更好，而弱模型在自我批评方面却能出人意料地超过强模型，为大型语言模型的批评和自我改进研究提供了深入理解。

Feb, 2024

CritiqueLLM: 扩展 LLM-as-Critic 以有效且可解释地评估大型语言模型生成

自然语言处理社区开始让大规模语言模型（如 GPT-4）扮演批评家以评估生成文本质量，大部分仅在特定数据集上训练特定规模的批判生成模型，我们认为缺乏对于基于语言模型评估模型的关键因素（如可扩展性特性）的全面调查，因此目前是否有潜力在实际场景中取代 GPT-4 的评估仍然没有结论；在本文中，我们提出了一种名为 CritiqueLLM 的新型批判生成模型，采用基于对话的提示方法用于高质量的参考 / 无参考评估数据，实验结果表明，我们的模型在评估性能上可以与 GPT-4 相媲美，尤其在系统级相关性上，甚至在具有挑战性的无参考环境中，在 8 个任务中有 3 个胜过 GPT-4；我们进行详细分析以展示我们模型在生成批评质量方面的可扩展性特性，同时证明我们生成的批评可以作为可扩展反馈，直接提高 LLM 的生成质量。

Nov, 2023

自我批评模型用于辅助人类评估员

本文介绍了利用大型语言模型进行自然语言批判的方法，帮助人们更有效地检测摘要中的问题，并着重研究了批判能力的缩放特性和与生成能力和辨别能力的比较，为机器学习系统的监督提供了 AI 辅助人类反馈的概念证明。

Jun, 2022

CRITIC：大型语言模型可通过工具交互式批评进行自我修正

该论文介绍了一种称为 CRITIC 的框架，旨在通过外部反馈来提高大型语言模型的性能和自我完善能力，具体包括对问题回答、代码合成和削减有害内容等方面的基准测试，而这种框架的作用类似于人类交互工具的方式。

May, 2023

N-Critics: 大型语言模型的自我提升与评论家集成

提出了一种用于改善大型语言模型的自我纠正机制，通过批评家与模型自己的反馈对模型输出进行精炼，以减轻毒性和事实幻觉等问题。通过人类行为的启发，探讨了大型语言模型是否可以模仿人类的自我纠正过程，即借助自评和寻求他人意见来完善对复杂主题的理解。该方法与特定模型无关，可应用于各个领域，通过解决公平性、偏见和鲁棒性问题，提高可信度。我们始终观察到大型语言模型在减少毒性和纠正事实错误方面的性能改进。

Oct, 2023

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

LLMCRIT: 教授大型语言模型使用准则

通过使用全面的准则为任务提供自然语言反馈，我们提出了一个允许大型语言模型使用准则的通用框架，然后在真实场景中的三个任务中评估了我们的反馈生成框架，揭示了整合准则和示范的细致效果，并提供了有关如何教授大型语言模型更有效使用准则的宝贵见解。

Mar, 2024

批评的批评

本文中，我们开创性地提出了 MetaCritique 框架来评估评论的质量，从新颖角度对评论进行批评，通过精确度和召回率评估评论的真实性和完整性，最终采用 F1 分数来作为总体评分。我们还提出了原子信息单元 (AIUs) 用于更细致地描述评论，并对每个 AIU 的判断进行综合计算。通过构建一个包含四个任务（问题回答、推理、蕴涵和总结）的元评估数据集，我们进行了比较研究以证明 MetaCritique 的可行性和有效性。实验证明，由 MetaCritique 评估的优秀评论可以促进更好的改进，表明生成性人工智能确实有潜力与我们的 MetaCritique 显著提高。我们将在此 https URL 发布相关代码和元评估数据集。

Jan, 2024