CANDERE-COACH：从嘈杂反馈中进行强化学习

Sep, 2024

CANDERE-COACH：从嘈杂反馈中进行强化学习

CANDERE-COACH: Reinforcement Learning from Noisy Feedback

Yuxuan Li, Srijita Das, Matthew E. Taylor

TL;DR本研究解决了强化学习中对完美反馈假设的局限性，提出了一种新算法CANDERE-COACH，可在存在噪声的反馈下学习。通过引入去噪机制，该算法能够在教师反馈中最多有40%的错误情况下仍然成功学习，从而提升了强化学习的实际应用能力。

Abstract

In recent times, Reinforcement Learning (RL) has been widely applied to many challenging tasks. However, in order to perform well, it requires access to a good reward function which is often sparse or manually engineered with scope for error. Introducing →

发现论文，激发创造

基于策略相关人类反馈的交互式学习

本文研究了利用正反馈进行与人类互动学习行为的问题，并提出了一种名为“ COACH ”的算法来解决在此过程中发现的问题，该算法能成功地在实体机器人上学习多种行为。

Jan, 2017

PEBBLE: 通过重标记经验和无监督预先训练实现高效互动式强化学习

本文提出了一种基于人机交互的强化学习方法，通过主动查询教师偏好，学习奖励模型并使用其训练智能体，使智能体能够学习更加复杂的任务，包括各种运动和机器人操作技能。与标准奖励函数相比，我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。

Jun, 2021

通过主动奖励学习实现证明反馈高效强化学习

本文提供一种以人类在强化学习中的角色为基础的算法框架，旨在从理论角度解决设计有效的奖励函数的问题。我们提供了一种主动学习的RL算法，通过仅在某些状态动作对上询问少量关于任务奖励的问题，保证以高概率提供几乎最优的任务策略。

Apr, 2023

自我激励模仿学习：噪声演示的优化

自我激励仿真学习 (SMILE) 是一种逐步过滤出被当前策略认为低劣的策略收集的演示的方法，利用扩散模型的正向和逆向过程模拟从低到高和从高到低的演示专业知识的转变，并利用噪声信息预测当前策略和演示者之间的扩散步骤，进一步详细说明了如何自我激励地应用预测的扩散步骤来过滤嘈杂的演示，并提供了其理论基础。通过对MuJoCo任务的实证评估，我们证明了我们的方法能够在嘈杂的演示环境中学习到专家策略，并有效地过滤掉低于当前策略的演示。

Oct, 2023

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

噪声蒸馏下的上下文强化学习的出现

通过与环境的交互实现对未知任务的概括，我们提出了一种方法AD^ε，该方法通过人类示范的较差策略引入噪音并逐渐改进，实现了多任务环境下的增量式学习。在Dark Room和Dark Key-to-Door环境中，我们的方法相比于最佳策略改进了2倍。

Dec, 2023

学习教学：提高师生学习中的样本效率，用于模拟到真实场景的迁移

模拟到现实的迁移是机器人学习的一个基本问题，本文提出了一种学习框架，通过引入师生学习范式和样本高效性，解决了培训中噪声观测造成的困难，实现了模拟环境下机器人的高性能表现。

Feb, 2024

技能感知的互信息优化在强化学习中的泛化

为了提高元强化学习代理的泛化能力，在不同任务中辨别上下文嵌入以执行不同的技能，该研究引入了技能感知的互信息目标，通过技能感知的噪声对比估计来优化该目标，并在实验中验证了其能够实现对未见任务的零-shot泛化，以及对样本数量减少的鲁棒性。

Jun, 2024

不需要奖励推断的人类反馈强化学习：无模型算法与实例相关分析

通过开发一种无模型的强化学习方法，本研究以人类反馈为基础，通过对动作进行对抗性竞争，提出了一个可直接从人类偏好信息中识别最佳策略的 RLHF 算法，证明了在样本复杂度方面 RLHF 并不比传统强化学习更困难，并且通过规避奖励推断中的问题，如过拟合和分布偏移，可能提供改进的性能。

Jun, 2024

基于人类反馈的强化学习中的双重主动学习

本研究解决了从人类反馈中学习奖励函数的效率问题，提出了一种双重主动奖励学习算法，能够同时选择对话和教师以提高数据质量。通过利用悲观强化学习和自适应选择策略，理论上证明了所获得的奖励估计器具有最小的推广方差，并在模拟实验中显示了该算法相较于现有技术的优越性。

Oct, 2024