RRL：ResNet 用于强化学习的表示

ICMLJul, 2021

RRL: Resnet as representation for Reinforcement Learning

Rutav Shah, Vikash Kumar

TL;DR我们提出了 RRL（使用 Resnet 作为 Reinforcement Learning 的表示）作为一种简单而有效的方法，可以直接从固有输入中学习复杂的行为，其在高维领域中的学习性能和样本效率甚至可以与直接从状态中学习相匹配，尤其在模拟的机器人灵巧操作基准中表现出接触丰富的行为。

Abstract

The ability to autonomously learn behaviors via direct interactions in uninstrumented environments can lead to generalist robots capable of enhancing productivity or providing care in unstructured settings like homes. Such uninstrumented settings warrant operations only using the robot's prop

autonomous learning proprioceptive sensor reinforcement learning resnet dexterous manipulation

发现论文，激发创造

循环强化学习：一种混合方法

本文研究了一种深度学习方法，将强化学习和监督学习结合，通过长短时记忆网络对隐藏状态的表示进行学习，在部分可观测任务中表现出了很好的性能。

Sep, 2015

SOLAR: 基于深度结构化表示的模型驱动强化学习

本文提出了一种适合于迭代模型增强策略，即使在具有复杂图像观测的情况下，学习简单动态和成本模型的表示方法，使得基于线性二次调节器（LQR）的基于模型的 RL 方法可用于具有图像观测的系统，并在包括通过图像直接操作真实世界机器人臂的操作中评估该方法，发现我们的方法相比其他基于模型的 RL 方法产生更好的最终性能，同时比无模型 RL 更高效。

Aug, 2018

用于强化学习的无监督表示轻量级探测

本文提出了使用线性探测任务评估强化学习中视觉预训练算法效果的方法，通过与实际下游控制表现的相关性进行实验，优化了现有自监督学习配方的方法，突出了前向模型、视觉主干大小和无监督目标的重要性。

Aug, 2022

使用人类演示进行神经网络预训练的深度强化学习

通过使用小规模的人类演示来完成深度强化学习网络的预训练，可以更好地发现特征，并且可以使训练时间显著缩短，并可在 Atari 2600 游戏中实现。

Sep, 2017

使用典型表示的强化学习

Proto-RL 是一种基于自我监督的框架，将表示学习与探索相结合，通过原型表示来实现，从而解决了强化学习中表示学习与探索之间的挑战，并在不带下游任务信息的环境中预训练这些任务无关的表示和原型，实现了一组困难的连续控制任务的最新下游策略学习。

Feb, 2021

使用多层读出的水库计算深度 Q 网络

这篇论文提出了一种引入储备计算的重放记忆方法，在这种方法中，使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。

Mar, 2022

针对具身智能的好奇心表示学习

通过提出一个奇思妙想的自学习框架，结合强化学习探索数据并训练视觉表示模型，使得机器能够从未标注的大规模图片数据中学习，得到一种强化学习的样本自提取方式，并在实际应用中展现了很好的转移性能。

May, 2021

多任务和多机器人迁移学习的模块化神经网络策略学习

本研究主要关注于如何使用深度增强学习的方法，通过神经网络策略来训练机器人获取新的技能。同时，通过迁移学习，可以实现技能和机器人之间的信息共享，从而使用 mix-and-match 模块来解决新的机器人环境和任务组合的问题。

Sep, 2016

基于递归卷积神经网络的强化学习

使用递归卷积神经网络的值迭代，以及部分可观测环境下的状态信念传递和最佳行动选择来更好地利用强化学习问题的固有结构，通过 RCNNs 回传梯度允许系统显式地学习与底层 MDP 相关联的变换模型和奖励函数，这是经典基于模型的 RL 的一种优秀替代方法。我们通过机器人规划问题的仿真来评估所提出的算法，并展示了我们框架降低重新规划成本、学习准确的 MDP 模型以及使用学习的模型重新规划以实现接近最优策略的能力。

Jan, 2017

使用策略残差表示进行强化学习经验复用

本文研究了经验重用在强化学习中的重要性，针对不同粒度的任务设计了一种策略残差表示网络（PRR），实现了多层级经验的提取和存储，通过在一组不同类型的任务上实验验证了它的有效性。

May, 2019