HIGhER: 使用回顾生成技术提高经验重演的指令跟踪

Oct, 2019

HIGhER: 使用回顾生成技术提高经验重演的指令跟踪

HIGhER : Improving instruction following with Hindsight Generation for Experience Replay

Geoffrey Cideron, Mathieu Seurin, Florian Strub, Olivier Pietquin

TL;DR本文提出了一种名为 Hindsight Generation for Experience Replay (HIGhER) 的新方法，其中当智能体不能完成指令时，它学习输出一条新指令来匹配智能体的轨迹，并赋予该回合一个积极的回报，从而消除了需要外部专家干预的需求。在 BabyAI 环境中，我们展示了我们的方法的效率，并展示了它如何补充其他指令跟随方法。

Abstract

Language creates a compact representation of the world and allows the description of unlimited situations and objectives through compositionality. While these characterizations may foster instructing, conditioning or structuring interactive agent behavior, it remains an open-problem to correctly relate →

language understanding reinforcement learning higher her instruction following

发现论文，激发创造

ETHER: 对后见体验回放进行新兴通信的调整

我们提出了 Emergent Textual Hindsight Experience Replay (ETHER) 的代理机制，它从 HIGhER 构建而来，通过 (i) 常见于 Emergent Communication (EC) 领域的判别性视觉指示游戏作为非监督辅助任务以及 (ii) 语义基准方案来解决 HIGhER 的两个局限性，并表明 EC 是 RL 的可行非监督辅助任务，为 HER 的广泛应用提供了遗漏的要点。

Jul, 2023

透过事后目标生成进行探索

本文介绍了一种基于目标导向的强化学习新算法框架 Hindsight Goal Generation，该框架通过生成有助于智能体在短期内实现的前瞻性目标以指导其在长期内实现实际目标的路径，以显著提高采样效率和处理奖励稀疏性问题。在多项机器人操作任务中，实验证明了该算法的有效性和优越性。

Jun, 2019

学习和复用原始行为以提高回顾经验重演的样本效率

采用前视经验回放（HER）技术，通过利用过去的经验来改进基于强化学习代理训练的目标导向机器人操作任务的采样效率，本文提出了一种使用先前学习的简单任务来引导代理在探索中选择更有益动作的方法。我们通过在多个块操纵任务中与 HER 和其他更高效变体算法性能的对比实验中展示了使用我们提出的方法可以更快地学习有效策略，包括采样效率和计算时间。

Oct, 2023

机器人多目标强化学习中基于回顾的指令实现

本文提出使用机器人强化学习来学习自然语言目标表示的问题。通过提出回顾指令重播机制、seq2seq 模型和基于语言的学习任务，解决了自然语言的组合性和触觉数据和行为之间的联系问题，并展示了学习性能的提高。

Apr, 2022

回顾智慧让语言模型成为更好的指令跟随者

本文提出一种基于回顾性指令重新标注的新算法 HIR，通过训练模型使其与指令更好地对齐，以解决语言模型中指令对齐的问题，并从 12 个挑战性的 BigBench 推理任务中的表现证明 HIR 优于基线算法，并且即使超过了有监督微调。

Feb, 2023

具近见式指导反馈的可证明交互式学习

探讨了以回顾性标签为指导的交互学习，通过理论分析证明了任何算法的后悔度必须与代理的响应空间的规模成比例，并基于低秩矩阵的特殊设定引入了名为 LORIL 的算法，并证明了它的后悔度与回合数的平方根成比例，而不以代理的响应空间的大小为依据，最后通过两个领域的实验表明了 LORIL 优于基准算法。

Apr, 2024

基于目标的对话策略学习与失败处理

该论文提出了两种基于 Hindsight experience replay 的复杂方法，以解决对话学习中由于奖励稀疏和早期学习阶段成功对话次数的不足导致的对话策略学习困难问题。与现有的经验重放方法相比，该方法在学习速度上有更好的表现。

Aug, 2018

ACTRCE: 基于教师指导的增强学习多目标体验增强

通过自然语言作为目标表示来扩展 HER 框架，ACTRCE 是一种有效的强化学习技术，能够有效地解决困难的强化学习问题，在挑战性的 3D 导航任务中取得好的性能表现。

Feb, 2019

软提示体验回放

本文提出了一种基于 HER 和 MERL 的方法 ——SHER，采用失败经验重用和最大熵概率推断模型，用于在具有稀疏奖励的 DRL 环境中进行有效学习，并在 Open AI 机器人操作任务中进行了评估，实验结果表明，相对于 HER 及其变种，我们提出的 SHER 在具有挑战性的手部操作任务中取得了最新的成果，并且稳定性更高，在不同随机种子上实现了非常相似的表现。

Feb, 2020

通过指令预测提高长期模仿能力

本研究探讨在长时间跨度规划中，利用语言指令作为辅助监督的方法，使用 transformer-based 的模型，通过 instruction modeling 不断改善 agent 在 BabyAI 和 Crafter 等基准环境中的规划表现。

Jun, 2023