软动作先验：实现强化学习中的稳健策略转移

Sep, 2022

软动作先验：实现强化学习中的稳健策略转移

Soft Action Priors: Towards Robust Policy Transfer

Matheus Centa, Philippe Preux

TL;DR通过引入动作先验，结合奖励整形和辅助正则化损失的方法，该论文提出了一种适应性算法，可以高效地利用先验知识，特别是软动作先验，取得了在 Reinforcement Learning 问题上的最新成果和深度 RL 的鲁棒性改进。

Abstract

Despite success in many challenging problems, reinforcement learning (RL) is still confronted with sample inefficiency, which can be mitigated by introducing prior knowledge to agents. However, many transfer tech

reinforcement learning prior knowledge policy distillation soft action priors adaptive algorithms

发现论文，激发创造

符号引导下基于事后先验的从人类偏好中学习奖励

本文研究强化学习中的奖励函数的学习，提出了利用先验知识和偏好数据约束奖励函数的 PRIOR 框架，可以降低 50% 的反馈数量并提高奖励函数学习和代理性能。

Oct, 2022

高效强化学习的行为先验

本文介绍了如何使用概率建模与信息结构约束相结合的方法来学习行为先验，并将其有效地整合到强化学习框架中，以实现多任务与转移学习。最后通过在一系列仿真连续控制域上的应用来展示该框架的有效性。

Oct, 2020

学习技能先验加速强化学习

通过学习技能先验分布，将其用于最大熵强化学习，能够在导航和机器人操作任务中实现有效的技能传输。

Oct, 2020

使用简单序列先验的强化学习

使用信息熵的目标函数和可压缩动作序列作为先验，提出了一种新的强化学习算法，能够学习解决包含可压缩序列动作的任务。在一系列连续控制任务中表现比最先进的无模型方法更好，并且产生出强大的信息正则化代理，能够对噪声观测进行鲁棒控制和执行开环控制。

May, 2023

鹦鹉：数据驱动的强化学习行为先验

本论文提出了一种用于预训练行为先验的方法，以便捕捉先前看到的各种任务中观察到的复杂输入输出关系，并展示了如何使用这种学习到的先验以便快速学习新任务，有效地解决了具有挑战性的机器人操纵领域中的问题。

Nov, 2020

使用 RL 和基于记忆片段的行为先验进行规划

本文提出了一种规划方法，使用行为先验知识帮助增强学习中的有效探索和学习，表明探索策略形式的行为先验可以帮助代理更快地学习。

Jul, 2022

通过多个对抗性运动先验在强化学习中进行高级技能训练

本文提出了一种基于对抗性先验的多样式强化学习方法，通过引入多种风格的先验知识，成功实现了机器人在不同风格下的运动控制和技能学习，无需人工设计奖励函数。

Mar, 2022

强化学习中的技能迁移：先验、层次和信息不对称性

通过对不对称选择的研究，提出了分层强化学习和 KL 正则化在技能传递方面的潜力，实验和理论结果展示了技能传递和表达能力间的权衡，并提出了一种基于不对称选择的技能选择方法。

Jan, 2022

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

自省行为指导的可解释迁移学习

本篇文章提出了一种基于动作建议的深度强化学习任务之间的迁移学习替代方法，该方法可提高 Gridworld 和 Atari 环境下的收敛速率并提供知识迁移情况的洞见。

Jun, 2023