回顾状态：将模拟和真实任务要素融合以实现高效强化学习

Mar, 2023

回顾状态：将模拟和真实任务要素融合以实现高效强化学习

Hindsight States: Blending Sim and Real Task Elements for Efficient Reinforcement Learning

Simon Guist, Jan Schneider, Alexander Dittrich, Vincent Berenz, Bernhard Schölkopf...

TL;DR通过把任务分解成不同的部分并利用动态的不平衡性，使用 “Hindsight States” 方法使得机器人学习更加高效。在多项挑战性仿真测试和一个真正的机器人示例中验证了该方法的有效性。

Abstract

reinforcement learning has shown great potential in solving complex tasks when large amounts of data can be generated with little effort. In robotics, one approach to generate training data builds on simulations

reinforcement learning robotics dynamics models sample-efficient learning complex systems

发现论文，激发创造

自监督适应深度神经网络实现机器人视觉操作

使用深度强化学习隐式地在仿真环境中学习潜在的状态表示，并通过无标签的真实机器人数据将其调整到真实环境中，以实现从像素中执行操作任务。通过序列自监督目标优化对比正向动力学损失，提出了一种更加有效的方法，成功地训练基于视觉的强化学习智能体来堆叠方块。

Oct, 2019

透过事后目标生成进行探索

本文介绍了一种基于目标导向的强化学习新算法框架 Hindsight Goal Generation，该框架通过生成有助于智能体在短期内实现的前瞻性目标以指导其在长期内实现实际目标的路径，以显著提高采样效率和处理奖励稀疏性问题。在多项机器人操作任务中，实验证明了该算法的有效性和优越性。

Jun, 2019

目标驱动的模仿学习

通过整合演示（demonstrations）的方法，本研究探讨如何加速强化学习的收敛速度，以达到能够到达任何目标的策略，并且在与其他模仿学习算法训练的代理相比表现更好。

Jun, 2019

特权知识蒸馏用于模拟到真实策略泛化

本文提出了一种称为历史信息瓶颈 (HIB) 的新型单阶段特权知识蒸馏方法，通过从历史轨迹中捕捉潜在的可变动态信息来学习特权知识表示，以弥合仿真与现实之间的差距，并证明该方法比现有方法具有更好的普适性。

May, 2023

强化学习的广义后见之明

提出 Generalized Hindsight 方法用于将多任务学习中无用的数据转化为有用的信息，以提高强化学习中数据的复用效率。

Feb, 2020

软提示体验回放

本文提出了一种基于 HER 和 MERL 的方法 ——SHER，采用失败经验重用和最大熵概率推断模型，用于在具有稀疏奖励的 DRL 环境中进行有效学习，并在 Open AI 机器人操作任务中进行了评估，实验结果表明，相对于 HER 及其变种，我们提出的 SHER 在具有挑战性的手部操作任务中取得了最新的成果，并且稳定性更高，在不同随机种子上实现了非常相似的表现。

Feb, 2020

RoMo-HER: 基于模型的鲁棒性后见经验回放

本研究提出了一种名为 Robust Model-based Hindsight Experience Replay（RoMo-HER）的框架，利用机器人操作环境中的动力学模型增强样本效率，相比于其他模型在多个机器人模拟环境中具有更高的样本效率。

Jun, 2023

学习和复用原始行为以提高回顾经验重演的样本效率

采用前视经验回放（HER）技术，通过利用过去的经验来改进基于强化学习代理训练的目标导向机器人操作任务的采样效率，本文提出了一种使用先前学习的简单任务来引导代理在探索中选择更有益动作的方法。我们通过在多个块操纵任务中与 HER 和其他更高效变体算法性能的对比实验中展示了使用我们提出的方法可以更快地学习有效策略，包括采样效率和计算时间。

Oct, 2023

何时信任你的模拟器：动态感知的离线与在线混合增强学习

本研究提出了一个新的混合离线 - 在线强化学习范式，通过使用有限的真实数据和不受限制的模拟器探索来解决两种方法的缺陷，并在通过广泛的仿真和实际任务以及理论分析中证明了 H2O 优于其他跨域在线和离线强化学习算法，从而为解决实际的复杂任务提供了全新的思路。

Jun, 2022

事后经验回放

本文提出了一种名为 Hindsight Experience Replay 的新颖技术，它可以有效地学习来自于稀疏二元奖励的知识，避免了复杂奖励工程，并且可以与任意离线 RL 算法相结合，被视为一种隐式的课程。通过在三种不同的任务上进行实验，推动、滑动和拿取 - 放置，每个任务只使用指示任务是否完成的二元奖励，我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明，Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素，并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上，并成功地完成任务。

Jul, 2017