自我批评模型用于辅助人类评估员

Jun, 2022

自我批评模型用于辅助人类评估员

Self-critiquing models for assisting human evaluators

William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang...

TL;DR本文介绍了利用大型语言模型进行自然语言批判的方法，帮助人们更有效地检测摘要中的问题，并着重研究了批判能力的缩放特性和与生成能力和辨别能力的比较，为机器学习系统的监督提供了 AI 辅助人类反馈的概念证明。

Abstract

We fine-tune large language models to write natural language critiques (natural language critical comments) using behavioral cloning. On a topic-based →

language models natural language critiques summarization scaling properties machine learning systems

发现论文，激发创造

大型语言模型的批判能力

这项研究探索了大语言模型的批判能力，并开发了一个评估框架来评估模型的能力，发现批判一般对大多数模型来说都很具有挑战性，而自我批判尤其困难。研究还介绍了一种名为自我检查的简单而有效的基准方法，以提高各种模型的任务表现。希望这项研究能为理解大语言模型的批判能力提供初步的探索，并在促进未来研究和更好地应用批判于不同任务方面发挥指导作用。

Oct, 2023

使用语言反馈进行语言模型训练

通过从自然语言反馈中学习，本文提出了一种三步学习算法来通过对其输出的反馈来优化预训练语言模型，以获得人类水平的摘要能力。

Apr, 2022

CRITIC：大型语言模型可通过工具交互式批评进行自我修正

该论文介绍了一种称为 CRITIC 的框架，旨在通过外部反馈来提高大型语言模型的性能和自我完善能力，具体包括对问题回答、代码合成和削减有害内容等方面的基准测试，而这种框架的作用类似于人类交互工具的方式。

May, 2023

N-Critics: 大型语言模型的自我提升与评论家集成

提出了一种用于改善大型语言模型的自我纠正机制，通过批评家与模型自己的反馈对模型输出进行精炼，以减轻毒性和事实幻觉等问题。通过人类行为的启发，探讨了大型语言模型是否可以模仿人类的自我纠正过程，即借助自评和寻求他人意见来完善对复杂主题的理解。该方法与特定模型无关，可应用于各个领域，通过解决公平性、偏见和鲁棒性问题，提高可信度。我们始终观察到大型语言模型在减少毒性和纠正事实错误方面的性能改进。

Oct, 2023

LLMCRIT: 教授大型语言模型使用准则

通过使用全面的准则为任务提供自然语言反馈，我们提出了一个允许大型语言模型使用准则的通用框架，然后在真实场景中的三个任务中评估了我们的反馈生成框架，揭示了整合准则和示范的细致效果，并提供了有关如何教授大型语言模型更有效使用准则的宝贵见解。

Mar, 2024

CriticBench: 评估大型语言模型作为评论家

论文介绍了一种用于全面可靠评估大型语言模型 (Large Language Models) 的批评能力的新的基准，该基准包括九个不同的任务，评估了语言模型在不同质量粒度下的批评响应能力，并揭示了批评能力与任务、响应质量和模型规模之间的有趣关系。

Feb, 2024

从人类反馈中学习摘要

通过使用强化学习优化模型的奖励函数来预测人类偏好总结，本文展示了可显著提高总结质量的可能性，并在 TL;DR 数据集上取得了显著的优势。

Sep, 2020

CritiqueLLM: 扩展 LLM-as-Critic 以有效且可解释地评估大型语言模型生成

自然语言处理社区开始让大规模语言模型（如 GPT-4）扮演批评家以评估生成文本质量，大部分仅在特定数据集上训练特定规模的批判生成模型，我们认为缺乏对于基于语言模型评估模型的关键因素（如可扩展性特性）的全面调查，因此目前是否有潜力在实际场景中取代 GPT-4 的评估仍然没有结论；在本文中，我们提出了一种名为 CritiqueLLM 的新型批判生成模型，采用基于对话的提示方法用于高质量的参考 / 无参考评估数据，实验结果表明，我们的模型在评估性能上可以与 GPT-4 相媲美，尤其在系统级相关性上，甚至在具有挑战性的无参考环境中，在 8 个任务中有 3 个胜过 GPT-4；我们进行详细分析以展示我们模型在生成批评质量方面的可扩展性特性，同时证明我们生成的批评可以作为可扩展反馈，直接提高 LLM 的生成质量。

Nov, 2023

批评的批评

本文中，我们开创性地提出了 MetaCritique 框架来评估评论的质量，从新颖角度对评论进行批评，通过精确度和召回率评估评论的真实性和完整性，最终采用 F1 分数来作为总体评分。我们还提出了原子信息单元 (AIUs) 用于更细致地描述评论，并对每个 AIU 的判断进行综合计算。通过构建一个包含四个任务（问题回答、推理、蕴涵和总结）的元评估数据集，我们进行了比较研究以证明 MetaCritique 的可行性和有效性。实验证明，由 MetaCritique 评估的优秀评论可以促进更好的改进，表明生成性人工智能确实有潜力与我们的 MetaCritique 显著提高。我们将在此 https URL 发布相关代码和元评估数据集。

Jan, 2024

新闻摘要的大型语言模型基准测试

通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估，我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键，并通过从自由职业作家收集的高质量摘要进行人类评估，得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。

Jan, 2023