本文对逆强化学习领域的现有文献进行了分类调查,介绍了IRL问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
本文提出了一种名为PCHID的新方法,它通过利用Hindsight Experience Replay学习Hindsight Inverse Dynamics来有效地解决奖励稀疏的任务,并在多目标任务GridWorld和FetchReach上实现了显著的样本效率和最终性能的提高。
Oct, 2019
提出 Generalized Hindsight 方法用于将多任务学习中无用的数据转化为有用的信息,以提高强化学习中数据的复用效率。
Feb, 2020
利用 Hindsight Foresight Relabeling 方法,将多任务强化学习中的 relabeling 概念扩展到元强化学习领域中,从而提高样本效率和渐近性能。
Sep, 2021
本文从分歧最小化的角度解释了追溯目标重标记技术在多目标强化学习中的应用,将目标达成问题重新定义为模仿学习框架,并从该框架中推导出多种算法。实验结果表明,与行为克隆相比,Q-learning算法在追溯重标记技术下表现更优,但两者的普通组合会降低性能。此外,该论文还解释了奖励为(-1,0)明显优于(0,1)时的困惑现象。
Sep, 2022
本文提出一种基于回顾性指令重新标注的新算法 HIR,通过训练模型使其与指令更好地对齐,以解决语言模型中指令对齐的问题,并从12个挑战性的 BigBench 推理任务中的表现证明 HIR 优于基线算法,并且即使超过了有监督微调。
Feb, 2023
本文提出了一种RL$^3$算法,该算法将Task-specific action-values作为Traditional RL学到的输入,并通过将Traditional RL和Meta-RL组合来在Long-horizon和Out-of-distribution任务中获得更高的累积回报。
Jun, 2023
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的IRL结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用RLP和RLE算法,我们分别设计了离线和在线设置的IRL算法,并建立了样本复杂度的下界,表明RLP和RLE算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标MDP上的转移能力。
Nov, 2023
我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索,通过专家数据在训练过程中引导学习者,从而缩小小型逆强化学习问题的交互过程,取得了较好的策略表现。
Feb, 2024
本研究解决了“利用轨迹解释强化学习决策”论文的可重复性问题。我们验证该论文中关于轨迹聚类与强化学习代理决策之间关系的主要论点,并在定量方面进行了扩展,发现部分结论是可支持的,同时强调需要进一步的研究以增强现有结果的坚实基础。此项工作为未来更加清晰和透明的解释性强化学习方法铺平了道路。
Nov, 2024