用合成数据对 LLM 进行精简自我评价：一个贝叶斯视角

ICLRDec, 2023

用合成数据对 LLM 进行精简自我评价：一个贝叶斯视角

Distilled Self-Critique of LLMs with Synthetic Data: a Bayesian Perspective

Victor Gallego

TL;DR本文通过引入精简自我批判（dSC）将 RLAIF 的解释视为贝叶斯推理，通过 Gibbs 采样器对 LLM 的输出进行改进并提炼为经过调整的模型。只需合成数据，dSC 在安全、情感和隐私控制实验中表现出能够成为与 LLMs 相符的可行且廉价的替代方法。代码可在 https://github.com/vicgalle/distilled-self-critique 下载。

Abstract

This paper proposes an interpretation of rlaif as bayesian inference by introducing distilled self-critique (dSC), which refines the outpu

rlaif bayesian inference distilled self-critique gibbs sampler fine-tuned model

发现论文，激发创造

LLM 自学与交叉模型蒸馏：拒绝模式对齐的有效方法

通过研究模型对有毒提示的脆弱性和拒绝模式的统计，提出了自我提炼和跨模型提炼的方法来提高大型语言模型的安全性和拒绝率的研究。

Jun, 2024

利用自反论辩教授 LLM 学生表达自信

使用先进的 SaySelf 训练框架，通过自动总结知识不确定性以及分析不一致性，教导大语言模型表达更准确的细粒度置信度评估，并通过强化学习和奖励机制校准置信度估计，降低校准错误并保持任务性能。

May, 2024

心灵之镜：从大型语言模型中提炼自我评估能力和综合思考

大型语言模型（LLMs）在自然语言处理领域取得了显著的进展，但是考虑到它们的规模和计算需求，将这些模型实际部署在资源受限的环境中面临着巨大的挑战。为了解决这些问题，我们提出了一种双重方法：首先，我们引入了一种将 LLMs 中固有的自我评价能力提取到 SLMs 中的新方法，旨在减少错误推理和幻觉的不利影响。其次，我们建议采用综合的蒸馏过程，结合多种不同的链式思维和自我评价范式，确保更全面、更稳健地将知识转移至 SLMs 中。在三个自然语言处理基准测试上进行的实验表明，我们的方法显著提高了蒸馏 SLMs 的性能，并为开发与人类认知更接近的较小模型指明了方向。

Nov, 2023

自我改进：带自反馈的迭代改进

通过引入 SELF-REFINE 框架，可以通过迭代反馈和改进从 LLMs 获得更好的输出，同时不需要监督训练数据或强化学习，且在 7 种任务中展现出优越性能。

Mar, 2023

欺骗以启蒙：诱导 LLMs 自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知 LLMs 它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理 AI 系统的努力作出了有价值的贡献。

Apr, 2024

开源自我优化模型中的成本与性能权衡探究

我们提出了一种无外部干扰的非定向迭代自我批判和自我完善的方法，以及一种新颖的评分指标，用于在考虑到性能和成本的情况下为给定任务找到最佳模型。我们的实验表明，规模不同的 SoTA 开源模型在性能方面平均提高 8.2%。这对希望在不牺牲性能和隐私的情况下利用 LLMs 的资源有限和信息敏感环境具有重要意义。

Oct, 2023

LLM 细化之艺：问、细化与信任

近年来，大型语言模型展现出了令人瞩目的生成能力，但它们能判断自己生成的质量吗？我们提出了一种名为 ART 的推理与改进目标，通过提出必要的问题来决定何时应该改进模型的输出，并通过对改进和初始预测进行排名来确认或保留对改进的信任。在数学 word 问题和问答任务上，ART 相较于自我改进的基线表现提高了 5 个百分点，并且更小的模型作为决策者显示出了使用更小模型进行改进决策的好处，作为经济高效的替代方法。

Nov, 2023

自我蒸馏：填补语言模型微调中的分布差距

使用自我蒸馏微调（SDFT）方法，本研究通过引入由模型自身生成的蒸馏数据集来填补任务数据集与大型语言模型之间的分布差距，解决了在特定任务上微调时性能和通用指令跟随能力之间的挑战，并在多个基准测试中证明了 SDFT 方法在减轻灾难性遗忘的同时，在下游任务上实现了与传统微调相当或更优的性能，并且还展示了 SDFT 方法在保持 LLMs 的实用性和安全性之间的潜力。

Feb, 2024

从数量到质量：通过自导数据选择提高 LLM 性能以进行指令调整

大型语言模型的自主选择优化方法以及通过 IFD 指标识别差异以提高模型训练效率的研究对于提高 LLM 的效率和资源利用具有重要意义。

Aug, 2023

使用大型语言模型生成真实的合成数据：计算社会科学案例研究

该研究论文介绍了采用基于 grounding、过滤和分类系统的生成方法来提高合成数据的准确性，并在讽刺检测任务中对比研究了三种方法以提高准确性，评估证明 Grounding 方法更为有效，该研究提供了合成数据高保真性的一些建议。

May, 2023