大型语言模型的批判能力

Oct, 2023

Critique Ability of Large Language Models

Liangchen Luo, Zi Lin, Yinxiao Liu, Lei Shu, Yun Zhu...

TL;DR这项研究探索了大语言模型的批判能力，并开发了一个评估框架来评估模型的能力，发现批判一般对大多数模型来说都很具有挑战性，而自我批判尤其困难。研究还介绍了一种名为自我检查的简单而有效的基准方法，以提高各种模型的任务表现。希望这项研究能为理解大语言模型的批判能力提供初步的探索，并在促进未来研究和更好地应用批判于不同任务方面发挥指导作用。

Abstract

critical thinking is essential for rational decision-making and problem-solving. This skill hinges on the ability to provide precise and reasoned critiques and is a hallmark of human intelligence. In the era of large language models (LLMs), this study explores the ability of LLMs to de

critical thinking large language models self-critique benchmark model performance

发现论文，激发创造

CriticBench: 评估大型语言模型作为评论家

论文介绍了一种用于全面可靠评估大型语言模型 (Large Language Models) 的批评能力的新的基准，该基准包括九个不同的任务，评估了语言模型在不同质量粒度下的批评响应能力，并揭示了批评能力与任务、响应质量和模型规模之间的有趣关系。

Feb, 2024

自我批评模型用于辅助人类评估员

本文介绍了利用大型语言模型进行自然语言批判的方法，帮助人们更有效地检测摘要中的问题，并着重研究了批判能力的缩放特性和与生成能力和辨别能力的比较，为机器学习系统的监督提供了 AI 辅助人类反馈的概念证明。

Jun, 2022

CriticBench: LLMs 评估评论改正推理基准

利用 CriticBench 评估和解析 17 个大型语言模型在生成、批评和纠正推理（即 GQC 推理）中的性能，发现 GQC 能力呈线性关系，批评训练显著增强性能，校正效果因任务而异，逻辑导向任务更容易纠正，模型大小增加可以减少 GQC 知识的不一致性，强模型在批评弱模型方面表现更好，而弱模型在自我批评方面却能出人意料地超过强模型，为大型语言模型的批评和自我改进研究提供了深入理解。

Feb, 2024

CRITIC：大型语言模型可通过工具交互式批评进行自我修正

该论文介绍了一种称为 CRITIC 的框架，旨在通过外部反馈来提高大型语言模型的性能和自我完善能力，具体包括对问题回答、代码合成和削减有害内容等方面的基准测试，而这种框架的作用类似于人类交互工具的方式。

May, 2023

CritiqueLLM: 扩展 LLM-as-Critic 以有效且可解释地评估大型语言模型生成

自然语言处理社区开始让大规模语言模型（如 GPT-4）扮演批评家以评估生成文本质量，大部分仅在特定数据集上训练特定规模的批判生成模型，我们认为缺乏对于基于语言模型评估模型的关键因素（如可扩展性特性）的全面调查，因此目前是否有潜力在实际场景中取代 GPT-4 的评估仍然没有结论；在本文中，我们提出了一种名为 CritiqueLLM 的新型批判生成模型，采用基于对话的提示方法用于高质量的参考 / 无参考评估数据，实验结果表明，我们的模型在评估性能上可以与 GPT-4 相媲美，尤其在系统级相关性上，甚至在具有挑战性的无参考环境中，在 8 个任务中有 3 个胜过 GPT-4；我们进行详细分析以展示我们模型在生成批评质量方面的可扩展性特性，同时证明我们生成的批评可以作为可扩展反馈，直接提高 LLM 的生成质量。

Nov, 2023

大型语言模型通过自我批判自我提升的真的有效吗？

几乎不存在自我评估的大型语言模型能够成功地在迭代模式下验证或自我批评其候选解决方案的推理问题中。该研究评估了一种利用大型语言模型进行计划生成和验证的计划系统，发现自我批评似乎削弱了计划生成的性能，并且系统的可靠性受到 LLM 验证器产生的显著错误结果的影响，二进制或详细反馈对计划生成几乎没有影响。总体而言，这些结果对于 LLMs 在计划任务的自我批评迭代框架中的有效性产生了质疑。

Oct, 2023

LLMCRIT: 教授大型语言模型使用准则

通过使用全面的准则为任务提供自然语言反馈，我们提出了一个允许大型语言模型使用准则的通用框架，然后在真实场景中的三个任务中评估了我们的反馈生成框架，揭示了整合准则和示范的细致效果，并提供了有关如何教授大型语言模型更有效使用准则的宝贵见解。

Mar, 2024

LLMs 辅助 NLP 研究：批评论文（元）评审

使用大型语言模型（LLMs）辅助 NLP 研究人员的研究，特别关注 LLMs 在论文审查和其可识别性方面的效果。

Jun, 2024

自我认知评估大型语言模型

基于 Feynman 的理解通过创造原则，我们引入了一个易于实施的自我认知评估框架，评估模型对自动生成的问题的理解和回应能力。我们的研究发现，在多个任务上测试多个模型后，模型的自我认知能力存在显著差距。进一步分析表明，这些差距可能是由于与人类注意机制的不匹配所导致的。此外，对自动生成的数学任务进行微调可以提高模型的数学性能，突出了该框架在高效和富有洞察力的模型评估方面的潜力，并可能有助于改善大型语言模型。

Jun, 2024

大型语言模型尚未能够自校正推理

本文探讨了自我纠错在大型语言模型中的作用和效果，发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应，在某些情况下，性能甚至可能在自我纠正后下降。基于这些发现，提出了未来研究和实际应用的建议。

Oct, 2023