基于人类评估反馈的原始技能基础机器人学习

Jul, 2023

基于人类评估反馈的原始技能基础机器人学习

Primitive Skill-based Robot Learning from Human Evaluative Feedback

Ayano Hiranaka, Minjune Hwang, Sharon Lee, Chen Wang, Li Fei-Fei...

TL;DRSEED 是一个结合了人类反馈的强化学习和基于原始技能的强化学习的新框架，通过减少人类的工作量和增加训练过程的安全性，有效地解决了长期任务中的样本低效性和安全性问题。SEED 在五个具有不同复杂度的操作任务上表现出了比其他强化学习算法更高的样本效率和安全性，并且与其他 RLHF 方法相比，也大大减少了人类的工作量。

Abstract

reinforcement learning (RL) algorithms face significant challenges when dealing with long-horizon robot manipulation tasks in real-world environments due to sample inefficiency and safety issues. To overcome thes

reinforcement learning robot manipulation long-horizon tasks sparse reward issues rlhf methods

发现论文，激发创造

加速强化学习的人类启发式框架

本文提出了一种基于人类启发的框架以提高采样效率，其中通过逐步提供简单但相似的任务来适应复杂的强化学习任务，并且使用任何转移学习方法来减少样本复杂性而不增加计算复杂性，实验表明该框架能够在优化问题方面表现出良好的性能。

Feb, 2023

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

强化学习从人类反馈中的开放问题与基本限制

强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术，但其自身存在的问题、局限性以及相关改进技术的概述，以及提出用于改善社会监督的审计和公开标准的重要性。

Jul, 2023

层次化启动在强化学习技能转移中的应用

本文研究了如何将技能融入强化学习智能体的训练，提出了基于技能的新方法 Hierarchical Kickstarting（HKS），并在复杂环境下的游戏 NetHack 及其他基线测试中验证了其表现优于其他方法，并认为利用预定义技能为具有大的状态 - 动作空间和稀疏奖励的强化学习问题提供了一个有用的归纳偏差。

Jul, 2022

Safe RLHF: 安全的强化学习从人类反馈中

利用 Safe Reinforcement Learning from Human Feedback（Safe RLHF）算法，通过训练单独的奖励和成本模型，实现了对大型语言模型（LLMs）在帮助性和无害性上进行人类价值调整，以最大化奖励函数并满足成本约束条件；通过实验证明与现有的值对齐算法相比，Safe RLHF 在减轻有害回应的能力和提高模型性能方面更为优越。

Oct, 2023

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

强化学习中主动多任务学习的力量

通过多任务表示学习的方式，我们将人类反馈强化学习 (RLHF) 问题建模为一种上下文二分问题，并假设存在一种共同线性表示。我们证明了考虑任务相关性，并为具有不同任务相关性的源任务分配不同样本数量可以降低多任务 RLHF 中的样本复杂度。此外，由于表示学习，目标任务的样本复杂度仅与潜在空间的维度成线性关系。

May, 2024

指导技能学习和抽象以实现长远操纵

LEAGUE 是一种集成任务计划和技能学习框架，利用任务计划器的符号界面指导基于深度强化学习的技能学习，同时创建抽象状态空间以实现技能重用，并可以在任务计划系统内学习操作技能，不断提高其能力并解决更多任务。

Oct, 2022

技能批评家：为强化学习优化学得技能

利用 Skill-Critic 算法，结合高层技能选择来优化低级和高级策略，通过离线演示数据学习到的潜在空间来指导联合策略优化，提高在多个稀疏环境中的决策性能。

Jun, 2023