使用典型表示的强化学习

Feb, 2021

Reinforcement Learning with Prototypical Representations

Denis Yarats, Rob Fergus, Alessandro Lazaric, Lerrel Pinto

TL;DRProto-RL 是一种基于自我监督的框架，将表示学习与探索相结合，通过原型表示来实现，从而解决了强化学习中表示学习与探索之间的挑战，并在不带下游任务信息的环境中预训练这些任务无关的表示和原型，实现了一组困难的连续控制任务的最新下游策略学习。

Abstract

Learning effective representations in image-based environments is crucial for sample efficient reinforcement learning (RL). Unfortunately, in RL, representation learning is confounded with the exploratory experie

reinforcement learning representation learning proto-rl self-supervised framework continuous control tasks

发现论文，激发创造

任务诱导的表示学习

本研究评估表征学习方法在视觉复杂环境下决策制定中的有效性，并发现任务诱导的表征学习方法可以提高样本效率和学习效率。

Apr, 2022

DreamerPro: 无需重建的基于模型的原型表示强化学习

本研究旨在提高基于模型的强化学习代理在处理视觉干扰方面的鲁棒性。我们提出了一种从世界模型的循环状态中学习原型表示的方法，将过去的观察和动作中的时间结构提取为原型。DreamerPro 模型通过将 Dreamer 与原型组合起来，在标准设置和存在复杂背景干扰的情况下都取得了大幅性能提高。

Oct, 2021

用于强化学习的无监督表示轻量级探测

本文提出了使用线性探测任务评估强化学习中视觉预训练算法效果的方法，通过与实际下游控制表现的相关性进行实验，优化了现有自监督学习配方的方法，突出了前向模型、视觉主干大小和无监督目标的重要性。

Aug, 2022

针对具身智能的好奇心表示学习

通过提出一个奇思妙想的自学习框架，结合强化学习探索数据并训练视觉表示模型，使得机器能够从未标注的大规模图片数据中学习，得到一种强化学习的样本自提取方式，并在实际应用中展现了很好的转移性能。

May, 2021

利用目标条件策略学习可操作表示

本文研究功能性显著表征的强化学习方法，可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验，表明该方法在表征学习、探索和分层强化学习方面具有优势。

Nov, 2018

RRL：ResNet 用于强化学习的表示

我们提出了 RRL（使用 Resnet 作为 Reinforcement Learning 的表示）作为一种简单而有效的方法，可以直接从固有输入中学习复杂的行为，其在高维领域中的学习性能和样本效率甚至可以与直接从状态中学习相匹配，尤其在模拟的机器人灵巧操作基准中表现出接触丰富的行为。

Jul, 2021

强化学习中的局部约束表达

本文提出一种局部约束表示法，通过对环境观测状态的预测及邻近状态的表示作为辅助损失，将强化学习中的表示与任务相分离，可以提高泛化能力，有效应用于连续控制任务中。

Sep, 2022

利用语言抽象和预训练表示进行语义探索

本研究提出使用词汇和形象语言所构建的视觉和语言表示形式来加强强化学习的探索能力，实验证明这种方法可以改善在高维连续部分可观测空间中进行探索所遇到的问题，促进算法性能的提高。

Apr, 2022

多智能体系统中的策略表示学习

我们提出了一个用于多智能体系统中建模代理行为的泛化学习框架，将代理建模作为表示学习问题，并使用模仿学习和代理识别的算法进行无监督学习，以构建代理策略的表示形式。在具有挑战性的高维连续控制和通信合作环境中，我们经验证明该框架对于使用深度强化学习进行无监督聚类和策略优化的监督预测任务具有实用价值。

Jun, 2018

强化学习中表征转移的可证明收益

本研究探讨了强化学习中的表征传递问题，提出了一种基于预训练和生成访问的新方法，可以帮助在源任务中发现一个共享表征来快速收敛到一个接近最优策略的目标任务中。

May, 2022