通过双层优化实现模仿学习的可证明表示学习

Feb, 2020

通过双层优化实现模仿学习的可证明表示学习

Provable Representation Learning for Imitation Learning via Bi-level Optimization

Sanjeev Arora, Simon S. Du, Sham Kakade, Yuping Luo, Nikunj Saunshi

TL;DR本文研究了在马尔可夫决策过程中多项专家经验和仿真学习设置下的表征学习，并将其实例化到行为克隆和仅观测的仿真学习设置中。理论上，我们展示了在两种设置下，表征学习可以为仿真学习提供样本复杂性优势，并提供了具体实验来验证我们的理论。

Abstract

A common strategy in modern learning systems is to learn a representation that is useful for many tasks, a.k.a. representation learning. We study this strategy in the imitation learning setting for →

representation learning imitation learning markov decision processes behavior cloning sample complexity

发现论文，激发创造

针对 POMDP 的模仿学习中的信仰表征学习

该研究使用生成对抗（GAN）深度神经网络引导非马尔可夫策略策略的置信度表示，在一定程度上解决了部分可观察马尔可夫决策过程（POMDP）中的模仿学习问题。

Jun, 2019

模仿任务的表征学习的实证研究

研究了基于模块化框架的表示学习算法在模仿学习中的应用，发现对于基于图像的模仿学习，在多个环境套件中，现有的表示学习算法相对于图像增强的精心调整的基准测试提供的价值有限，并对此结果进行了解释。

May, 2022

多智能体系统中的策略表示学习

我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架，将代理建模作为表示学习问题，并使用模仿学习和代理识别的算法进行无监督学习，以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中，我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。

Jun, 2018

无模型模仿学习与策略优化

在模仿学习中，我们使用基于样本的方法开发了一种基于策略梯度的算法，即通过学习专家的样本轨迹，找到至少与专家策略一样好的参数化随机策略；该算法可以应用于高维度环境，并保证收敛到局部最小值。

May, 2016

低秩马尔可夫决策过程中可证明的高效表示学习

本文提出了一种名为 ReLEX 的算法，旨在通过学习表示和执行探索操作，提高代表低秩 MDPs 类的效率，该算法在方法上始终不劣于最先进的无表示学习算法，并且在表示能够对整个状态 - 动作空间具有一定的 “覆盖性” 时会严格提高样本效率。

Jun, 2021

多任务表示学习在强化学习中的证明收益

本文首次从理论上研究了使用多任务表示学习来提高勘探性无奖励多任务强化学习中多个任务的样本效率，并证明了它比单独学习每个任务更加样本高效。此外，我们还研究了下游强化学习，并表明与直接学习低秩模型有所不同的是，从上游学习的表示更有利于下游强化学习。

Jun, 2022

通过展示理解专业技能：一种离线逆向强化学习的最大似然框架

研究了离线逆向强化学习的问题，提出了一种基于双层优化的估计任务公式与新的算法框架来解决这个问题，并在 MuJoCo 中的连续控制任务以及 D4RL 基准测试中的不同数据集上，展示了算法胜过现有最先进的离线 IRL 和模仿学习基准测试大量的结果。

Feb, 2023

表示学习在视觉模仿中的惊人有效性

提出了一种解耦表示学习与行为学习的视觉模仿学习方法，使用标准的监督和自监督学习方法来学习视觉表示编码器，然后使用非参数局部加权回归来预测行为。实验结果表明，这种简单的解耦可以提高视觉模仿模型在离线演示数据集和实际机器人开门方面的性能。

Dec, 2021

基于 EM 的可证明分层模仿学习

本文利用潜在变量模型将层次化模仿学习问题转化为参数推断，理论上表征了 Daniel 等人（2016）提出的 EM 方法。研究了种群水平算法作为中间步骤的性能保证，证明了该算法在一定的正则条件下以高概率收敛于真实参数周围的范数球上。据我们所知，这是第一个仅观察原始状态 - 动作对的层次化模仿学习算法的性能保证。

Oct, 2020

低秩 MDP 中在线和离线 RL 的表示学习

本文研究了如何在低秩马尔可夫决策过程中进行紧凑的低维表示的表示学习，并致力于改进样本复杂度，并提出 REP-UCB 算法。

Oct, 2021