易于困难泛化：超越人类监督的可扩展对齐

Mar, 2024

易于困难泛化：超越人类监督的可扩展对齐

Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision

Zhiqing Sun, Longhui Yu, Yikang Shen, Weiyang Liu, Yiming Yang...

TL;DR通过从易到难的泛化和评估者的使用，本文提出一种可扩展的 AI 对齐方法，用于解决超越人类监督水平的困难推理任务，提升生成器模型在数学问题上的准确率。

Abstract

Current ai alignment methodologies rely on human-provided demonstrations or judgments, and the learned capabilities of AI systems would be upper-bounded by human capabilities as a result. This raises a challenging research question: How can we keep improving the systems when their capa

ai alignment methodologies hard reasoning tasks easy-to-hard generalization evaluator process-supervised reward models

发现论文，激发创造

从弱监督中引发强能力：弱到强的泛化

通过弱监督模型来训练强大的预训练模型，研究发现在自然语言处理、国际象棋和奖励建模任务中，弱模型引导强模型的普遍性能要优于弱模型，但仍然需要进一步研究以扩展到超人模型。利用辅助置信度损失方法，可以在自然语言处理任务中获得接近 GPT-3.5 级性能，这表明今天在修正超人模型的基本挑战上取得实证进展是可行的。

Dec, 2023

通过可扩展的监督和集成学习提高从弱到强的泛化能力

本文是对 OpenAI 最近关于弱到强泛化（W2SG）的超对齐工作的跟进研究，并提出使用集成学习和弱到强监督实现过强人工智能模型开发和超智能进化的方法。通过人类监督和自动对齐评估器来增强弱监督的能力，实现了弱到强监督的目标，并讨论了改进弱监督对于增强弱到强泛化的影响。

Feb, 2024

提升弱到强泛化性能的可靠性感知对齐

通过提高弱监督信号的可靠性，我们的方法有效地识别了弱标签的质量，并显著提高了弱到强泛化能力，降低了噪声监督的误差传播，增强了大型语言模型的准确性和可靠性。

Jun, 2024

易训练数据在困难任务中的非常有效性

通过对容易和困难数据进行简单的训练方法、线性分类器头和 QLoRA 的易变难泛化，以及使用不同硬度度量的实验验证，我们得出了在语言模型中易变难泛化意外地很强，表明可扩展的监管问题可能比之前认为的更容易。

Jan, 2024

通过群不变学习提高对人类偏好的对齐的泛化能力

通过增强学习技术，我们提出了一种新方法来训练基于语言模型的 AI 助手，在不同数据组和领域之间实现一致的策略，并提高训练稳定性和模型泛化能力。

Oct, 2023

作为对齐实验室的通用语言助手

本研究旨在构建一个与人类价值观相一致的通用文本助手，通过简单的基线技术和评估，我们发现适度干预的效益随着模型大小的增加而增长，并且不会影响大模型的性能；二分类和模仿学习亦具善意，但此外，排序偏好建模方法在对齐训练任务中表现更佳且尺度更合适；最终我们研究通过 “偏好模型预训练” 阶段达到在人类喜好上微调时的样本效率提升。

Dec, 2021

衡量大型语言模型可扩展监督的进展

本篇论文讨论了监督强于人类水平的 AI 系统的问题，提出了一个实验设计并探讨如何通过与打破传统 AI 的对话式助手交互的方式来解决这个问题。在基于两个问答任务进行的试验中，我们发现，通过这种方式监管的人类表现显著优于只使用大语言模型或人类自身的表现。

Nov, 2022

通过奖励建模实现可扩展的智能体协调方向研究

本文阐述了设计适用于真实世界应用强化学习的奖励函数的难度、代理对齐问题的产生原因、以及基于奖励建模解决代理对齐问题的高层研究方向，并探讨了在实现奖励建模时可能面临的关键挑战和解决这些挑战的具体方法以及建立信任的方式。

Nov, 2018

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

自主驱动的语言模型从零开始的最小人工监督自我对齐

研究提出了 SELF-ALIGN 方法，利用少量人工监督和结合原理驱动推理和 LLM 的生成能力，实现 AI 助手的自我对齐，减少人工监督的依赖，获得更好的性能，开发了 Dromedary AI 助手。

May, 2023