基于接触能的回顾经验优先级

Dec, 2023

Contact Energy Based Hindsight Experience Prioritization

Erdi Sayar, Zhenshan Bing, Carlo D'Eramo, Ozgur S. Oguz, Alois Knoll

TL;DR本文介绍了一种基于接触能量的优先选择机制，用于解决强化学习中多目标机器人操作任务中稀疏奖励收集成功经验低效的问题，并在各种机器人操作任务中对该方法进行了评估。

Abstract

multi-goal robot manipulation tasks with sparse rewards are difficult for reinforcement learning (RL) algorithms due to the inefficiency in collecting successful experiences. Recent algorithms such as hindsight experien

multi-goal robot manipulation tasks reinforcement learning algorithms hindsight experience replay contact energy based prioritization sparse reward robotic tasks

发现论文，激发创造

基于能量的追溯经验优先化

本论文提出了一种基于能量的框架，根据目标状态的轨迹能量来优先考虑重新播放的经验，取得了在四个机器人操作任务上表现和样本效率均优于现有研究方法的成果。

Oct, 2018

学习和复用原始行为以提高回顾经验重演的样本效率

采用前视经验回放（HER）技术，通过利用过去的经验来改进基于强化学习代理训练的目标导向机器人操作任务的采样效率，本文提出了一种使用先前学习的简单任务来引导代理在探索中选择更有益动作的方法。我们通过在多个块操纵任务中与 HER 和其他更高效变体算法性能的对比实验中展示了使用我们提出的方法可以更快地学习有效策略，包括采样效率和计算时间。

Oct, 2023

RoMo-HER: 基于模型的鲁棒性后见经验回放

本研究提出了一种名为 Robust Model-based Hindsight Experience Replay（RoMo-HER）的框架，利用机器人操作环境中的动力学模型增强样本效率，相比于其他模型在多个机器人模拟环境中具有更高的样本效率。

Jun, 2023

基于聚类的反事实经验回放在机器人控制中的应用

提出了一种基于聚类的采样策略，利用成就目标的属性对轨迹进行分组，并在此基础上采样经验，用于解决多目标强化学习中稀疏奖励的问题。实验结果表明，该方法在三个机器人控制任务中具有显著的优化效果，可以缩短模型收敛时间和提升成功率。

Aug, 2022

透过事后目标生成进行探索

本文介绍了一种基于目标导向的强化学习新算法框架 Hindsight Goal Generation，该框架通过生成有助于智能体在短期内实现的前瞻性目标以指导其在长期内实现实际目标的路径，以显著提高采样效率和处理奖励稀疏性问题。在多项机器人操作任务中，实验证明了该算法的有效性和优越性。

Jun, 2019

通过密度估计进行好奇心驱动的经验优先排序

提出了一种好奇心驱动的优先级策略（CDP）框架，通过模仿人类学习流程，着力于相对罕见的事件，使得机器人在强化学习中更加高效地学习并提高性能。

Feb, 2019

USHER: 无偏采样的回顾经验回放

提出了一种基于重要性采样的算法来处理稀疏奖励带来的偏差问题，并在高维度随机环境中显示了其有效性。

Jul, 2022

事后经验回放

本文提出了一种名为 Hindsight Experience Replay 的新颖技术，它可以有效地学习来自于稀疏二元奖励的知识，避免了复杂奖励工程，并且可以与任意离线 RL 算法相结合，被视为一种隐式的课程。通过在三种不同的任务上进行实验，推动、滑动和拿取 - 放置，每个任务只使用指示任务是否完成的二元奖励，我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明，Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素，并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上，并成功地完成任务。

Jul, 2017

软提示体验回放

本文提出了一种基于 HER 和 MERL 的方法 ——SHER，采用失败经验重用和最大熵概率推断模型，用于在具有稀疏奖励的 DRL 环境中进行有效学习，并在 Open AI 机器人操作任务中进行了评估，实验结果表明，相对于 HER 及其变种，我们提出的 SHER 在具有挑战性的手部操作任务中取得了最新的成果，并且稳定性更高，在不同随机种子上实现了非常相似的表现。

Feb, 2020

自我导引的中继后见经验回放：稀疏奖励下用于连续顺序物体操纵任务的持续强化学习

提出了一种新颖的自导式连续强化学习框架 (RelayHER)，通过将顺序任务分解为具有不同复杂度的子任务、设计多目标和多任务网络以及使用自导式探索策略，使得智能体能够有效地解决顺序目标操纵任务。

Aug, 2022