N-Critics: 大型语言模型的自我提升与评论家集成

Oct, 2023

N-Critics: 大型语言模型的自我提升与评论家集成

N-Critics: Self-Refinement of Large Language Models with Ensemble of Critics

Sajad Mousavi, Ricardo Luna Gutiérrez, Desik Rengarajan, Vineet Gundecha, Ashwin Ramesh Babu...

TL;DR提出了一种用于改善大型语言模型的自我纠正机制，通过批评家与模型自己的反馈对模型输出进行精炼，以减轻毒性和事实幻觉等问题。通过人类行为的启发，探讨了大型语言模型是否可以模仿人类的自我纠正过程，即借助自评和寻求他人意见来完善对复杂主题的理解。该方法与特定模型无关，可应用于各个领域，通过解决公平性、偏见和鲁棒性问题，提高可信度。我们始终观察到大型语言模型在减少毒性和纠正事实错误方面的性能改进。

Abstract

We propose a self-correction mechanism for large language models (LLMs) to mitigate issues such as toxicity and →

large language models self-correction mechanism toxicity fact hallucination performance improvements

发现论文，激发创造

CRITIC：大型语言模型可通过工具交互式批评进行自我修正

该论文介绍了一种称为 CRITIC 的框架，旨在通过外部反馈来提高大型语言模型的性能和自我完善能力，具体包括对问题回答、代码合成和削减有害内容等方面的基准测试，而这种框架的作用类似于人类交互工具的方式。

May, 2023

自动修正大规模语言模型：多样化自我纠正策略概述

大语言模型自我修正的技术，包括训练和生成阶段的自动反馈，被广泛应用于解决大语言模型在自然语言处理任务中的错误和缺陷问题。

Aug, 2023

关于自我纠正和语言模型信任的交叉问题

通过探索大型语言模型的自我纠正能力，研究发现自我纠正能够提升大型语言模型的可信度和真实性，但这种改进程度会根据可信度的具体方面和任务的性质而有所不同，并发现大型语言模型在自我纠正过程中存在自我怀疑的实例，带来了一系列需要解决的新挑战。

Nov, 2023

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与 GPT-4 基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

LLM 批评家助力捕捉 LLM 漏洞

人类反馈强化学习受到人类正确评估模型输出能力的限制。为了提高人类评估能力并克服这一限制，本研究训练了 “评论家” 模型，帮助人类更准确地评估模型生成的代码。这些评论家是通过强化学习从人类反馈训练的语言模型，用于指出真实世界助手任务中代码中的问题。在含有自然发生的语言模型错误的代码中，63% 的情况下优先选择模型生成的评论，而人工评估发现模型比人类承包商在代码审核中能找到更多的错误。我们进一步验证了我们微调的语言模型评论家能够成功地在被评为 “无瑕疵” 的 ChatGPT 训练数据中识别出数百个错误，尽管绝大多数任务是非代码任务，因此对评论家模型来说是非分布的。评论家也可能存在其自身的局限性，包括产生错误的问题，可能会误导人类错误地做出本来可以避免的错误，但是人机评论家与承包商团队能够发现与仅使用语言模型评论相似数量的错误，并且比仅使用语言模型时产生更少的错误。

Jun, 2024

合并提升自我审查对抗越狱攻击

通过融合批评模型和自我批评能力，将大型语言模型（LLM）微调于经过净化的合成数据之上，以提高其对抗性提示的自我批评能力和鲁棒性，从而显著降低攻击者的攻击成功率，为抵御越狱攻击提供了一种有前景的防御机制。

Jun, 2024

大型语言模型尚未能够自校正推理

本文探讨了自我纠错在大型语言模型中的作用和效果，发现大型语言模型在没有外部反馈的情况下难以自我纠正其回应，在某些情况下，性能甚至可能在自我纠正后下降。基于这些发现，提出了未来研究和实际应用的建议。

Oct, 2023

自我反馈的危险：自我偏见在大型语言模型中增强

最近的研究表明，自我反馈可以改善大型语言模型在某些任务上的表现，但对其他任务而言则会恶化。我们发现这种矛盾是由于语言模型对自己的输出存在偏见所致。本文通过两个统计量正式定义了语言模型的自我偏见 —— 偏爱其自身生成的内容。我们分析了六个语言模型在翻译、受限文本生成和数学推理任务上的表现。我们发现自我偏见在所有研究的语言模型中普遍存在，并且跨多种语言和任务。我们的分析揭示了自我优化流程虽然可以提高模型输出的流畅度和可理解性，但会进一步放大自我偏见。为了减轻这种偏见，我们发现更大的模型规模和准确评估的外部反馈可以显著减少自我优化流程中的偏见，从而在下游任务中实现实际性能的提升。

Feb, 2024

CriticBench: 评估大型语言模型作为评论家

论文介绍了一种用于全面可靠评估大型语言模型 (Large Language Models) 的批评能力的新的基准，该基准包括九个不同的任务，评估了语言模型在不同质量粒度下的批评响应能力，并揭示了批评能力与任务、响应质量和模型规模之间的有趣关系。

Feb, 2024

大型语言模型通过自我批判自我提升的真的有效吗？

几乎不存在自我评估的大型语言模型能够成功地在迭代模式下验证或自我批评其候选解决方案的推理问题中。该研究评估了一种利用大型语言模型进行计划生成和验证的计划系统，发现自我批评似乎削弱了计划生成的性能，并且系统的可靠性受到 LLM 验证器产生的显著错误结果的影响，二进制或详细反馈对计划生成几乎没有影响。总体而言，这些结果对于 LLMs 在计划任务的自我批评迭代框架中的有效性产生了质疑。

Oct, 2023