学习任务感知抽象化

Jun, 2021

Learning Task Informed Abstractions

Xiang Fu, Ge Yang, Pulkit Agrawal, Tommi Jaakkola

TL;DR本研究提出了一种基于任务感知的马尔可夫决策过程（TiMDP）的形式化方法，利用学习任务信息抽象（TIA）来改善现有基于模型的强化学习在复杂视觉场景中处理的困难，并取得了显著的性能提升。

Abstract

Current model-based reinforcement learning methods struggle when operating from complex visual scenes due to their inability to prioritize task-relevant features. To mitigate this problem, we propose learning Tas

model-based reinforcement learning visual scenes task informed abstractions task informed mdp performance gains

发现论文，激发创造

任务相关的对抗性模仿学习

本文探讨对抗模仿领域中鉴别器网络学习视觉特征与专家标签之间的虚假关联所造成的关键漏洞，并提出了一种新的解决方案 (TRAIL)，该方法通过优化受限的鉴别器来获得 informative rewards。在实验中，我们展示了 TRAIL 能够在没有访问任何任务奖励的情况下，通过模仿人类的操作来解决具有挑战性的机器人操纵任务，并明显优于其他基于行为克隆和传统 GAIL 的对抗模仿代理模型。

Oct, 2019

元强化学习作为任务推断

本文提出一种在元强化学习中用于解决任务信息受限问题的方法，通过利用各种特权信息，分别学习策略和任务信念来解决部分可观测马尔可夫决策问题，从而在元强化学习环境中较为有效地解决标准问题和需要长期记忆的复杂连续控制问题。

May, 2019

任务诱导的表示学习

本研究评估表征学习方法在视觉复杂环境下决策制定中的有效性，并发现任务诱导的表征学习方法可以提高样本效率和学习效率。

Apr, 2022

深度强化学习的马尔可夫状态抽象学习

该研究提出了一种学习马尔科夫状态抽象表示的新方法，结合逆向模型估计和时态对比学习，可以提高强化学习中的样本效率。

Jun, 2021

无任务先验学习实现新任务

本文提出了一种名为任务不可知学习方法（TAL）的学习方法，该方法可从任务不可知数据中学习碎片化知识以完成新任务，TAL 由四个阶段组成：任务不可知探索，知识图表组织，动作特征提取，候选动作生成和动作建议。该方法在虚拟室内场景上的实验表明，它的性能优于当前的强化学习和模仿学习算法。

Sep, 2022

领域鲁棒性视觉仿真学习与互信息约束

介绍了一种名为 Disentangling Generative Adversarial Imitation Learning（DisentanGAIL）的新算法，可通过对抗学习来自动学习高维度任务表现观察的特征，从而成功进行模仿，同时忽略专家和代理之间的差异，此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。

Mar, 2021

抽象学习模型规划与可迁移子任务学习

该研究利用一种新的形式结构，提出了一种基于模型的层次强化学习算法，名为 PALM，可学习独立、模块化的转移和奖励模型用于概率规划，并演示了其将规划和执行进行集成，以快速有效地学习抽象、分层模型以及转移至新的相关任务的增强潜力。

Dec, 2019

样本高效强化学习的动态抽象表示学习

本文介绍了一种新的从上至下的方法，用于在执行强化学习的同时构建状态抽象，动态计算一个基于 Q 值分散的抽象，结果表明，这种方法自动学习细调问题的抽象，具有较强的样本效率，并使强化学习代理明显优于现有方法。

Oct, 2022

去噪 MDPs：学习比世界本身更好的世界模型

该论文提出了一种基于奖励的学习框架，旨在通过分离信号与噪声、提取有用信息以及抑制某些噪声分心因素的方式来改进强化学习中的表示学习，实验结果表明其在控制任务和联合位置回归等任务中优于其他先前工作。

Jun, 2022

基于变分逆强化学习的多任务可迁移奖励学习

利用生成对抗网络框架下的多任务环境下的赋能制约技术，从无标记的专家示例中同时学习可转移的多任务奖励函数和策略，并证明其比现有的模仿学习方法具有更好的性能和数据效率。

Jun, 2022