本文探讨对抗模仿领域中鉴别器网络学习视觉特征与专家标签之间的虚假关联所造成的关键漏洞,并提出了一种新的解决方案 (TRAIL),该方法通过优化受限的鉴别器来获得 informative rewards。在实验中,我们展示了 TRAIL 能够在没有访问任何任务奖励的情况下,通过模仿人类的操作来解决具有挑战性的机器人操纵任务,并明显优于其他基于行为克隆和传统 GAIL 的对抗模仿代理模型。
Oct, 2019
本文提出一种在元强化学习中用于解决任务信息受限问题的方法,通过利用各种特权信息,分别学习策略和任务信念来解决部分可观测马尔可夫决策问题,从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。
May, 2019
本研究评估表征学习方法在视觉复杂环境下决策制定中的有效性,并发现任务诱导的表征学习方法可以提高样本效率和学习效率。
Apr, 2022
该研究提出了一种学习马尔科夫状态抽象表示的新方法,结合逆向模型估计和时态对比学习,可以提高强化学习中的样本效率。
Jun, 2021
本文提出了一种名为任务不可知学习方法(TAL)的学习方法,该方法可从任务不可知数据中学习碎片化知识以完成新任务,TAL 由四个阶段组成:任务不可知探索,知识图表组织,动作特征提取,候选动作生成和动作建议。该方法在虚拟室内场景上的实验表明,它的性能优于当前的强化学习和模仿学习算法。
Sep, 2022
介绍了一种名为 Disentangling Generative Adversarial Imitation Learning(DisentanGAIL)的新算法,可通过对抗学习来自动学习高维度任务表现观察的特征,从而成功进行模仿,同时忽略专家和代理之间的差异,此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。
Mar, 2021
该研究利用一种新的形式结构,提出了一种基于模型的层次强化学习算法,名为 PALM,可学习独立、模块化的转移和奖励模型用于概率规划,并演示了其将规划和执行进行集成,以快速有效地学习抽象、分层模型以及转移至新的相关任务的增强潜力。
Dec, 2019
本文介绍了一种新的从上至下的方法,用于在执行强化学习的同时构建状态抽象,动态计算一个基于 Q 值分散的抽象,结果表明,这种方法自动学习细调问题的抽象,具有较强的样本效率,并使强化学习代理明显优于现有方法。
Oct, 2022
该论文提出了一种基于奖励的学习框架,旨在通过分离信号与噪声、提取有用信息以及抑制某些噪声分心因素的方式来改进强化学习中的表示学习,实验结果表明其在控制任务和联合位置回归等任务中优于其他先前工作。
Jun, 2022
利用生成对抗网络框架下的多任务环境下的赋能制约技术,从无标记的专家示例中同时学习可转移的多任务奖励函数和策略,并证明其比现有的模仿学习方法具有更好的性能和数据效率。