通过主动奖励学习实现证明反馈高效强化学习
本文提出了一种基于人机交互的强化学习方法,通过主动查询教师偏好,学习奖励模型并使用其训练智能体,使智能体能够学习更加复杂的任务,包括各种运动和机器人操作技能。与标准奖励函数相比,我们的方法能够利用实时人类反馈有效地预防奖赏利用和学习新行为。
Jun, 2021
研究提出了一种有效的轨迹对采样方法,用于探索隐藏的奖励函数,以便在收集人类反馈之前准确地学习,比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略,可以考虑线性和低秩 MDP
May, 2023
使用多任务学习来实现基于人类反馈的强化学习,通过将偏好模型训练在以前的任务数据上,我们仅需要很少的查询就可以在 Meta-World 中训练出具有更好效果的机器人策略模型。
Dec, 2022
利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持,本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界,提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法,并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。
Dec, 2023
本文研究如何构建通用且高效的层次强化学习算法,其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督,并使用脱离策略的经验来提高效率。我们称此算法为 HIRO,并在模拟机器人上的实验中表现出高性能和高样本效率。
May, 2018
这篇论文介绍了一个针对离线奖励学习的新型线性规划(LP)框架,通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数,并在保持计算可行性和样本效率的同时,提供可证明的样本效率优化保证。
May, 2024
本研究使用即时反馈,通过引入人与环境的互动,提高了强化学习在机器人学中的应用性,并提出了一种 DQN-TAMER 算法,在模拟和现实环境中都有优越表现。
Oct, 2018
通过排列的方式学习奖励函数,本研究提出了一个新的强化学习框架 - HERON,通过比较轨迹并使用决策树进行优先级排序来训练基于偏好的奖励模型,从而在处理复杂任务时减少了人工成本同时提高了性能。
Sep, 2023
本文提出了一种基于人类启发的框架以提高采样效率,其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务,并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性,实验表明该框架能够在优化问题方面表现出良好的性能。
Feb, 2023