从像素学习与专家观察

Jun, 2023

Learning from Pixels with Expert Observations

Minh-Huy Hoang, Long Dinh, Hai Nguyen

TL;DR使用专家观察作为强化学习智能体的中间视觉目标，可以帮助解决稀疏奖励问题，从而提高性能并减少专家动作的使用。

Abstract

In reinforcement learning (RL), sparse rewards can present a significant challenge. Fortunately, expert actions can be utilized to overcome this issue. However, acquiring explicit expert actions can be costly, an

reinforcement learning sparse rewards expert observations robot manipulation tasks intermediate visual goals

发现论文，激发创造

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

异质行动空间中的强化模仿

本文提出了一种逐步平衡模仿学习成本和强化学习目标的方法，使得机器人能够利用稀疏奖励函数来优化其动作，以在导航场景等方面表现出更好的性能。

Apr, 2019

利用演示克服强化学习中的探索问题

本研究利用示范来解决强化学习中稀疏奖励的探索问题，成功地学习了长期、多步骤的机器人任务，方法使用了 DDPG 和 HER 算法，提供了一种在仿真机器人任务上比以往 RL 算法快一个数量级的加速，方法易于实现，能够解决在行为克隆和 RL 算法中都无法解决的任务，并且往往表现优于示范策略。

Sep, 2017

强化学习中的稀疏奖励问题处理

本研究探索和对比了现有的强化学习方法，以避免仅提供稀少回报的环境的难度，并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案，提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。

Oct, 2019

基于像素观测的逐州安全强化学习

本文提出了一种新的像素观测安全强化学习算法，通过引入潜在障碍函数学习机制，高效地编码未知危险区域的状态安全约束，并通过在潜在动力学上建立和学习潜在障碍函数以及同时进行策略优化的联合学习框架，从而在提高安全性和总预期收益方面取得显著的结果。在安全 - gym 基准套件上的实验评估表明，我们提出的方法明显减少了训练过程中的安全违规，并在安全收敛速度上比现有方法更快，同时在奖励回报方面取得了竞争性的结果。

Nov, 2023

基于模型的方法提高强化学习效率：借助专家观察

该研究通过采用专家观察（不涉及具体专家行为信息）来改进深度强化学习模型的样本效率，并通过提出一种自动调整增强损失函数中各组成部分权重的算法，证明了该算法在多种连续控制任务中通过有效利用可用的专家观察优于其他基准模型。

Feb, 2024

事后经验回放

本文提出了一种名为 Hindsight Experience Replay 的新颖技术，它可以有效地学习来自于稀疏二元奖励的知识，避免了复杂奖励工程，并且可以与任意离线 RL 算法相结合，被视为一种隐式的课程。通过在三种不同的任务上进行实验，推动、滑动和拿取 - 放置，每个任务只使用指示任务是否完成的二元奖励，我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明，Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素，并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上，并成功地完成任务。

Jul, 2017

基于视觉观测的离线强化学习中的挑战与机遇

本文旨在建立连续控制的视觉基线，通过离线强化学习从视角上建立简单的基线，并在数据集中严格评估算法，同时分析了离线视角下的重要的特殊需求。

Jun, 2022

基于实体为中心的从像素到目标操控的强化学习

这项研究提出了一种适用于表示多个物体及其相互作用的可视强化学习结构化方法，用于学习多个物体的目标条件操纵，并演示了学习使用三个物体但能推广到具有十多个物体的类似任务的代理的能力。

Apr, 2024

使用深度动态模型从图像像素中高效学习反馈策略

本文提出了一种数据有效、基于模型的强化学习算法，通过使用像素信息直接学习闭环控制策略，实现了从像素到扭矩的端到端学习。该方法具有快速学习、高维状态空间可扩展、轻量级等优点，并且是解决在连续状态和动作下进行数据有效强化学习问题的重要步骤。

Oct, 2015