Self-AMPLIFY: 提高小型语言模型性能的自解释方法

Feb, 2024

Self-AMPLIFY: 提高小型语言模型性能的自解释方法

Self-AMPLIFY: Improving Small Language Models with Self Post Hoc Explanations

Milan Bhan, Jean-Noel Vittaut, Nicolas Chesneau, Marie-Jeanne Lesot

TL;DR自动化方法 Self-AMPLIFY 将事后解释方法应用于小型语言模型，生成有理性解释并改善其性能。

Abstract

Incorporating natural language rationales in the prompt and In-Context Learning (ICL) has led to a significant improvement of large language models (LLMs) performance. However, rationales currently require human-

natural language rationales in-context learning large language models small language models post hoc explanation methods

发现论文，激发创造

后验解释能够提高语言模型的性能

AMPLIFY 框架使用后续解释的方法，自动生成自然语言解释以提供纠正信号，从而提高 Large Language Models 的预测准确率。

May, 2023

大型语言模型是事后解释器吗？

利用大型语言模型和上下文学习，本研究提出了一种新的解释框架，展示了语言模型在解释其他预测模型方面的有效性，并通过实验证明了其与现有解释技术相媲美的性能，从而在可解释的人工智能领域开辟了新的研究前沿。

Oct, 2023

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

自我解释：教大型语言模型自行推理复杂问题

聚焦大型语言模型，探索通过自我解释生成复杂问题的过程，发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题，甚至在几个复杂问题回答数据集上优于人工生成的示例。

Nov, 2023

通过自发学习提升语言模型推理能力

通过建立自我激励学习框架，根据正确性的内在排序，依据奖励模型训练并通过强化学习优化推理能力，本研究的实验证据表明其方法显著提升了模型的推理能力，在部分数据集中甚至超过了 text-davinci-002 模型。

Apr, 2024

ZARA: 提升小语言模型 Few-Shot 自我合理化能力

本研究探索了利用解释来改善小型语言模型的 few-shot 自我合理性。我们提出了一种新方法 Zero-shot Augmentation of Rationale-Answer pairs (ZARA)，通过将可能性判断问题转换为自然语言推理，自动构建了伪平行数据来进行自我训练。实验结果表明，ZARA 在 FEB 基准测试中实现了 SOTA 性能，包括任务准确性和解释度量。此外，我们进行了人类和定量评估，验证了 ZARA 自动识别合理和准确的理由 - 答案对的能力。

May, 2023

通过互动演示教授语言模型自我提升

通过 TriPosT 训练算法，这篇论文介绍如何赋予更小的模型自我改进的能力，从而减小大型语言模型与成本效益更高、运行更快的模型之间的性能差距，并且通过与大型语言模型进行互动，收集反馈和改进，并将这一经验用于训练小模型，实验证明通过学习和纠正自己的错误对于小模型改进性能至关重要。

Oct, 2023

利用自反论辩教授 LLM 学生表达自信

使用先进的 SaySelf 训练框架，通过自动总结知识不确定性以及分析不一致性，教导大语言模型表达更准确的细粒度置信度评估，并通过强化学习和奖励机制校准置信度估计，降低校准错误并保持任务性能。

May, 2024

自我生成的上下文学习：利用自回归语言模型作为示范生成器

本文提出自生成上下文学习（SG-ICL）方法，用于生成 pre-trained language model（PLM）自身的演示文稿，以便在上下文学习中减少对外部演示的依赖。在四个不同的文本分类任务上进行实验，并表明 SG-ICL 显著优于零样本学习，一般值约为 0.6 金培训样本。此外，所生成的演示文稿与从训练数据集中随机选出的演示文稿相比，表现更具一致性和低方差。

Jun, 2022

让语言模型能够从数据中隐式学习自我改进

我们提出了一种从人类偏好数据中隐式学习的自我改进框架（PIT），以最大程度地与人类偏好相一致，显著优于提示法方法。

Oct, 2023