鹦鹉：数据驱动的强化学习行为先验

Nov, 2020

鹦鹉：数据驱动的强化学习行为先验

Parrot: Data-Driven Behavioral Priors for Reinforcement Learning

Avi Singh, Huihan Liu, Gaoyue Zhou, Albert Yu, Nicholas Rhinehart...

TL;DR本论文提出了一种用于预训练行为先验的方法，以便捕捉先前看到的各种任务中观察到的复杂输入输出关系，并展示了如何使用这种学习到的先验以便快速学习新任务，有效地解决了具有挑战性的机器人操纵领域中的问题。

Abstract

reinforcement learning provides a general framework for flexible decision making and control, but requires extensive data collection for each new task that an agent needs to learn. In other machine learning fields, such as natural language processing or computer vision, →

reinforcement learning pre-training behavioral priors complex input-output relationships robotic manipulation

发现论文，激发创造

高效强化学习的行为先验

本文介绍了如何使用概率建模与信息结构约束相结合的方法来学习行为先验，并将其有效地整合到强化学习框架中，以实现多任务与转移学习。最后通过在一系列仿真连续控制域上的应用来展示该框架的有效性。

Oct, 2020

使用 RL 和基于记忆片段的行为先验进行规划

本文提出了一种规划方法，使用行为先验知识帮助增强学习中的有效探索和学习，表明探索策略形式的行为先验可以帮助代理更快地学习。

Jul, 2022

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

深度强化学习中的预训练调查