机器人学习中目标达成任务的恒定负奖励再探讨

Jun, 2024

机器人学习中目标达成任务的恒定负奖励再探讨

Revisiting Constant Negative Rewards for Goal-Reaching Tasks in Robot Learning

Gautham Vasan, Yan Wang, Fahim Shahriar, James Bergstra, Martin Jagersand...

TL;DR实验对比了最短时间任务和密集奖励任务的奖励范式，发现最短时间任务规定不仅有助于学习更高质量的策略，而且在性能指标上也能超越基于密集奖励的策略。关键是，我们还确定了初始策略的目标达成率在稀疏反馈设置中是学习成功的一个稳健的早期指标。最后，我们利用四个不同的真实机器人平台展示了使用常数负奖励在两到三小时内可以从头开始学习基于像素的策略。

Abstract

Many real-world robot learning problems, such as pick-and-place or arriving at a destination, can be seen as a problem of reaching a goal state as soon as possible. These problems, when formulated as episodic reinforcement learning tasks, can easily be specified to align well with our

robot learning problems episodic reinforcement learning tasks minimum-time tasks dense rewards pixel-based policies

发现论文，激发创造

逆向课程生成用于强化学习

本文提出了一种基于逆向强化学习的方法，用于训练机器人完成目标导向任务，该方法自动生成适应智能体表现的初始状态课程，即使面对目前最先进的强化学习方法无法解决的困难仿真导航和纤细操纵问题也可取得显著成果。

Jul, 2017

前向 - 后向强化学习

通过训练一个模型来从已知的目标状态开始进行逆向预测，将强化学习中的目标函数引入到代理中，从而加速训练过程，并在 Gridworld 和汉诺塔游戏中进行了实验验证。

Mar, 2018

无需基准状态的强化学习

提出了一种简单的指示器奖励函数，以解决在连续状态空间中使用强化学习训练策略时无法基于高维观测指定奖励函数的挑战；并提出奖励平衡和奖励过滤两种方法，以进一步加速使用指示器奖励函数的模型的收敛速度，并展示了在无需知道地面实况的情况下从 RGB-D 图像中执行绳索操作等复杂任务的性能表现与使用地面实况的神谕方法的可比性。

May, 2019

无需奖励工程的端到端机器人强化学习

本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法，有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性，并证明该方法可使机器人从图像中直接学习知识，且仅需 1-4 个小时与实际世界进行交互。

Apr, 2019

提高代理学习的方法：保证所有回合实现目标

强化学习是解决环境并实现目标达成的框架，该研究提出了一种灵活的算法来提升学习效率并确保目标达成的性质。通过实验证明，该算法能够增强学习效果并保持目标的达成性质。

May, 2024

反向学习的目标导向策略

我们提出了一个多步骤过程，通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列，并通过模仿学习训练神经网络策略，肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估，其中观测是 64×64 像素鸟瞰图像，并且可以表明该方法始终达到多个目标。

Dec, 2023

ROSARL: 仅基于奖励的安全强化学习

在强化学习中，设计能够在一个环境中安全地解决任务的代理人是一个重要的问题。本文提出了一个实用的无模型算法，它可以帮助代理人学习 Minmax 惩罚，而且在学习任务策略的同时使其学习安全策略。这个算法可以在高维连续控制环境中产生学习安全策略的代理人。

May, 2023

顺序任务设置中最小化局部遗憾的谬误

强化学习中，研究任务间具有变化时，通过最小化后悔累积可以实现更好的结果，即在每个任务中过度探索，尤其在任务之间出现重大变化时。

Mar, 2024

保持距离：通过自平衡的成形奖励解决稀疏奖励任务

该研究介绍了一种基于辅助距离奖励的、简单且有效的无模型方法，使得机器学习智能体可以有效地解决用简单距离奖励难以解决的稀疏奖励任务，同时不需要额外的奖励工程或领域专业知识。

Nov, 2019

离线学习目标条件策略：自监督奖励塑形

在机器人领域，通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态，并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法，并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。

Jan, 2023