弱到强的搜索：通过在小型语言模型上进行搜索来对齐大型语言模型

May, 2024

弱到强的搜索：通过在小型语言模型上进行搜索来对齐大型语言模型

Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models

Zhanhui Zhou, Zhixuan Liu, Jie Liu, Zhichen Dong, Chao Yang...

TL;DR大规模语言模型通过使用弱到强的搜索方法进行调整，以增强模型的效果并提高模型的对齐能力。

Abstract

large language models are usually fine-tuned to align with human preferences. However, fine-tuning a large language model can be challenging. In this work, we introduce $\textit{weak-to-strong search}$, framing t

发现论文，激发创造

文本对齐是一种用于大规模自然语言处理任务的高效统一模型

提出了一种以文本对齐为基础的轻量级模型，用于广泛的文本蕴含、相似性、问答、事实一致性等关键任务，并通过轻量级调优方法，在具有较少参数的情况下达到相媲美或超过传统模型的性能，在评估文本生成的事实一致性和问答任务中表现优异。

Jul, 2023

对齐器：通过弱到强的校正实现高效对齐

通过强化学习从人类反馈中对齐大型语言模型的努力，介绍了一种新的高效对齐方式Aligner，通过学习对齐与未对齐答案之间的校正残差，绕过了强化学习过程，通过有监督学习在查询-答案-校正数据集上训练的自回归seq2seq模型实现了参数高效的对齐解决方案，可以将强大的预训练模型通过Aligner的监督信号进行微调，进而应用于不同的开源和API-based模型。此外，Aligner提供了很大的性能提升，如对11种不同的LLMs平均提升18％的有用性和23％的无害性（GPT-4提升26.9％和17.5％），对Llama2-70B使用Aligner-7B的监督进行微调，可以提高Llama2的有用性8.2％和无害性61.6％。

Feb, 2024

从弱到强的外推加速对准

通过ExPO方法，我们展示了将训练数据较少的模型推向或超越完全训练模型的可能性，同时在不同模型规模上显示出合理的可伸缩性，这表明模型外推在发掘大型语言模型能力方面具有潜力，值得未来探索。

Apr, 2024

弱到强泛化的增益量化

使用弱模型生成的标签对强模型进行微调可以显著提高强模型性能，本文提出了一个理论框架来解释这种弱到强的泛化现象，并通过多种实证评估验证了理论发现。

May, 2024

从文本分类到生成的贝叶斯弱强弱强

当大型语言模型的进步引发了对于对齐技术将如何随着模型变得越来越复杂以及人类只能弱化地监督它们的疑问时，本文通过对一个弱模型监督使用强模型提供全功能的能力的模拟情境的研究实现了WeakS-to-Strong的扩展，模拟了人类意见的变异性。通过贝叶斯方法估计置信度分数来指导WeakS-to-Strong的泛化，并将其应用于文本生成任务，研究了更先进的监督策略，并且应用了直接偏好优化来推进学生模型的偏好学习。结果表明了该方法在强学生模型的可靠性方面的有效性，并显示其在超级对齐方面的潜力。

May, 2024

提升弱到强泛化性能的可靠性感知对齐

通过提高弱监督信号的可靠性，我们的方法有效地识别了弱标签的质量，并显著提高了弱到强泛化能力，降低了噪声监督的误差传播，增强了大型语言模型的准确性和可靠性。

Jun, 2024

你弱的LLM秘密地是一个强大的对齐教师

本研究针对大型语言模型（LLM）在对齐方面的挑战，提出了一种利用弱LLM的创新方法。实验结果显示，弱LLM能够生成与全人类标注数据相媲美甚至优于的反馈，揭示了模型规模对反馈有效性影响的最小化，从而为可扩展和可持续的对齐策略提供了新视角。

Sep, 2024

集成价值引导下的推理时语言模型对齐

本研究针对大语言模型在对齐人类偏好时面临的计算复杂性问题，提出了一种新方法“集成价值引导”（IVG）。该方法通过在推理阶段利用隐式和显式价值函数引导语言模型解码，从而实现高效对齐，显著提升了模型在情感生成和总结任务中的表现，并在指令跟随基准测试中验证了其有效性。

Sep, 2024

超越准确性的弱到强泛化：安全性、毒性和法律推理的初步研究

本研究针对大型语言模型（LLMs）对人类价值的对齐问题，强调现有方法在实际对齐任务下的不足。作者提出将弱到强的生成扩展至实际对齐任务，并通过实证研究表明这一现象在安全性、毒性和法律推理三项复杂任务中的广泛存在，旨在提高模型输出的质量和对齐性能。

Oct, 2024

从弱对齐模型中获取奖励的弱到强偏好优化

本研究解决了语言模型与人类偏好对齐的有效性问题，提出了一种名为弱到强偏好优化（WSPO）的方法，该方法通过学习弱模型对齐前后的分布差异，从而实现强模型的对齐。实验结果表明，WSPO显著提升了模型的表现，表明利用弱模型来引导强模型以增强对齐能力是可行的。

Oct, 2024