机器人多目标强化学习中基于回顾的指令实现

Apr, 2022

机器人多目标强化学习中基于回顾的指令实现

Grounding Hindsight Instructions in Multi-Goal Reinforcement Learning for Robotics

Frank Röder, Manfred Eppe, Stefan Wermter

TL;DR本文提出使用机器人强化学习来学习自然语言目标表示的问题。通过提出回顾指令重播机制、seq2seq 模型和基于语言的学习任务，解决了自然语言的组合性和触觉数据和行为之间的联系问题，并展示了学习性能的提高。

Abstract

This paper focuses on robotic reinforcement learning with sparse rewards for natural language goal representations. An open problem is the

robotic reinforcement learning sparse rewards natural language hindsight instruction replay self-supervised

发现论文，激发创造

透过事后目标生成进行探索

本文介绍了一种基于目标导向的强化学习新算法框架 Hindsight Goal Generation，该框架通过生成有助于智能体在短期内实现的前瞻性目标以指导其在长期内实现实际目标的路径，以显著提高采样效率和处理奖励稀疏性问题。在多项机器人操作任务中，实验证明了该算法的有效性和优越性。

Jun, 2019

回顾智慧让语言模型成为更好的指令跟随者

本文提出一种基于回顾性指令重新标注的新算法 HIR，通过训练模型使其与指令更好地对齐，以解决语言模型中指令对齐的问题，并从 12 个挑战性的 BigBench 推理任务中的表现证明 HIR 优于基线算法，并且即使超过了有监督微调。

Feb, 2023

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

回顾策略梯度

本文研究如何将 hindsight 引入到 policy gradient 方法中，对各种稀疏奖励机制进行实验并表明 hindsight 能显著提高样本效率。

Nov, 2017

强化学习的广义后见之明

提出 Generalized Hindsight 方法用于将多任务学习中无用的数据转化为有用的信息，以提高强化学习中数据的复用效率。

Feb, 2020

HIGhER: 使用回顾生成技术提高经验重演的指令跟踪

本文提出了一种名为 Hindsight Generation for Experience Replay (HIGhER) 的新方法，其中当智能体不能完成指令时，它学习输出一条新指令来匹配智能体的轨迹，并赋予该回合一个积极的回报，从而消除了需要外部专家干预的需求。在 BabyAI 环境中，我们展示了我们的方法的效率，并展示了它如何补充其他指令跟随方法。

Oct, 2019

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

从离线数据和众包注释中学习语言相关机器人行为

本文研究了使用自然语言标签并结合机器人交互数据集，来学习规划机器人视觉操作任务的问题，并发现此方法在具有一定自由度的语言规划任务中表现更优秀，成功地完成了使用自然语言描述的物品移动任务。

Sep, 2021

基于接地模型指导机器人控制的文本生成

本论文提出了一种利用大型语言模型进行机器人交互的方法，用于解决理解语义知识和实现机器人任务之间的矛盾问题，其中引入了基于概率过滤的策略来采用语言模型和基于物理环境的模型两者的优势，通过指导解码策略可以实现复杂的机器人长视程任务。

Mar, 2023

事后经验回放

本文提出了一种名为 Hindsight Experience Replay 的新颖技术，它可以有效地学习来自于稀疏二元奖励的知识，避免了复杂奖励工程，并且可以与任意离线 RL 算法相结合，被视为一种隐式的课程。通过在三种不同的任务上进行实验，推动、滑动和拿取 - 放置，每个任务只使用指示任务是否完成的二元奖励，我们演示了该方法在操作机器人手臂上的实际应用。我们的消融研究表明，Hindsight Experience Replay 是训练在这些有挑战性的环境中成功的关键因素，并且我们展示了在物理仿真中训练的策略可以部署在物理机器人上，并成功地完成任务。

Jul, 2017