基于观测的内部模型用于奖励塑造

ICMLJun, 2018

基于观测的内部模型用于奖励塑造

Internal Model from Observations for Reward Shaping

Daiki Kimura, Subhajit Chaudhury, Ryuki Tachibana, Sakyasingha Dasgupta

TL;DR本研究提出一种新的强化学习方法，即基于内部模型的奖励估计方法，通过预测给定专家状态分布的预测模型来估计奖励，进而直接从专家操作的视频中成功训练出良好的策略。

Abstract

reinforcement learning methods require careful design involving a reward function to obtain the desired action policy for a given task. In the absence of hand-crafted reward functions, prior work on the topic has

reinforcement learning reward estimation internal model expert demonstrations policy

发现论文，激发创造

无需基准状态的强化学习

提出了一种简单的指示器奖励函数，以解决在连续状态空间中使用强化学习训练策略时无法基于高维观测指定奖励函数的挑战；并提出奖励平衡和奖励过滤两种方法，以进一步加速使用指示器奖励函数的模型的收敛速度，并展示了在无需知道地面实况的情况下从 RGB-D 图像中执行绳索操作等复杂任务的性能表现与使用地面实况的神谕方法的可比性。

May, 2019

基于梯度学习器的逆强化学习

本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。

Jul, 2020

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

基于互信息的状态控制方法用于内在驱动强化学习

基于内部驱动的强化学习算法以目标状态和可控状态之间的相互信息为内在目标，在机器人操纵和导航任务中取得了明显的成果。

Feb, 2020

基于专家状态序列的混合强化学习

本文提出一种基于张量的模型，用于推断专家状态序列中未被观察到的动作，通过混合强化学习和模仿学习来优化智能体的策略，实证结果表明这种混合方法比一般的深度神经网络模型更具优势，并且在专家状态序列中表现出了抗扰动的特性。

Mar, 2019

通过观看 YouTube 玩耐心考验类游戏

使用回放数据引导的深度强化学习在稀疏奖励任务中往往表现不佳，本研究提出一种使用不同来源的杂乱视频进行一次性模仿学习的方法，在多个著名游戏中实现真人游戏水平以上的表现。

May, 2018

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

无需奖励工程的端到端机器人强化学习

本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法，有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性，并证明该方法可使机器人从图像中直接学习知识，且仅需 1-4 个小时与实际世界进行交互。

Apr, 2019

互信息状态内在控制

本文提出了一种基于 Intrinsic motivation 的强化学习方法，其奖励函数被定义为智能体状态与周围状态之间的互信息，实现了比以前的方法更好的效果，包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。

Mar, 2021

轨迹反馈的强化学习

本文提出了一种基于轨迹反馈的强化学习算法，通过加强措施而无需为每个状态 - 动作对提供奖励，旨在处理现实世界的环境下反馈不及时的问题，同时，我们还分析了此算法的性能并提供优化 - 汤普森采样方法来处理未知转移模型的情况。

Aug, 2020