通过放大弱专家的能力来辅助强学习者

Oct, 2018

通过放大弱专家的能力来辅助强学习者

Supervising strong learners by amplifying weak experts

Paul Christiano, Buck Shlegeris, Dario Amodei

TL;DR本文介绍了一种名为迭代放大的训练策略，它通过组合解决较简单的子问题来有效地学习复杂行为，适用于包含难以明确目标的现实学习任务。

Abstract

Many real world learning tasks involve complex or hard-to-specify objectives, and using an easier-to-specify proxy can lead to poor performance or misaligned behavior. One solution is to have humans provide a training signal by demonstrating or judging performance, but this approach fa

发现论文，激发创造

分布式多智能体强化学习的动态安全可中断性

本文研究强化学习中的安全中断问题，提出了针对分散学习问题的动态安全中断定义，并探讨了在联合行动学习者和独立学习者中的应用，提出了可行的必要条件，并指出在独立学习者中使用动态安全中断需要添加特定算法。

Apr, 2017

开放式学习导致通用能力的代理

本文介绍了一种基于多智能体、开放式学习的方法，其能够使得智能体在一种包含大量挑战、跨越多个任务、更广泛的行为通用化领域中表现出非凡的学习能力。通过在环境中建立一个任务的宇宙，我们的训练代理能够跨越更广泛的任务领域，这个领域自然多智能体，涉及合作竞争等多种类型的游戏，而这一领域的挑战对于智能体来说多种多样，因此，我们提出了一种迭代方法来改进代理的效果，而不是试图最大化一个单一目标。最终，我们证明了这种代理的通用能力，可以通过简单的微调实现更大规模的行为传递。

Jul, 2021

透过指引提炼的可教授强化学习

本研究提出了一种基于“可教学”的决策系统的交互式学习监督范式，能够通过学习外部教师提供的结构化建议，解决复杂任务的学习难度，对拼图、导航和运动等各种任务需求的人工干预也相对较少。

Mar, 2022

解析奖励塑造：理解奖励工程对样本复杂性的益处

本文阐述了在强化学习中选择适当的奖励设计方法对提高学习效率的重要性，并提出了一种将奖励设计融入强化学习框架的方案，并通过基于奖励设计所得到的样本效率的提高，证明了该方案在实践中的有效性。

Oct, 2022

基于实时反馈的指令跟随持续学习

通过人机协作交互提供的实时二元反馈，用自然语言训练指令遵从代理的问题被研究。将学习作为一种上下文医师问题，将用户反馈转换为立即奖励，证明了其在提高指令执行效果方面具有优势，并且反馈信号与监督式演示数据的学习信号基本等价。

Dec, 2022

多个教师的主动奖励学习

利用多种来源的人类反馈信息可提高强化学习算法的效率和准确性，通过算法来评估不同来源反馈信息的价值，可以有效地选择最具价值的教师进行反馈，从而提高人类价值和人工智能行为的一致性。

Mar, 2023

从弱监督中引发强能力：弱到强的泛化

通过弱监督模型来训练强大的预训练模型，研究发现在自然语言处理、国际象棋和奖励建模任务中，弱模型引导强模型的普遍性能要优于弱模型，但仍然需要进一步研究以扩展到超人模型。利用辅助置信度损失方法，可以在自然语言处理任务中获得接近GPT-3.5级性能，这表明今天在修正超人模型的基本挑战上取得实证进展是可行的。

Dec, 2023

易于困难泛化：超越人类监督的可扩展对齐

通过从易到难的泛化和评估者的使用，本文提出一种可扩展的AI对齐方法，用于解决超越人类监督水平的困难推理任务，提升生成器模型在数学问题上的准确率。

Mar, 2024

迭代学习在大型视觉语言模型中提高组合性

通过引入一种新的迭代训练算法，以文化传播作为归纳先验，本研究以视觉代理和语言代理之间的Lewis信号游戏重新定义了视觉-语言对比学习，并通过在训练过程中迭代重置代理权重的方式实现文化传播，使得模型对于合成语言的特性变得更易于学习，达到了在SugarCrepe评测中相比标准CLIP模型分别提升4.7%和4.0%的效果。

Apr, 2024

强化学习设置中的专家混合模型

以增加参数计数、减少休眠神经元为特点的协同专家模型在深度强化学习中显著提升性能，通过多任务训练模拟非稳态性的扩大，进一步增强学习能力，并探索最佳使用戏剧评论理论网络中的协同专家组件的方法。

Jun, 2024