学习新任务的策略

ICMLMay, 2019

Learning Novel Policies For Tasks

Yunbo Zhang, Wenhao Yu, Greg Turk

TL;DR本文提出一种强化学习算法，通过自编码器将已发现策略的状态序列进行度量，以此产生新的策略，同时利用两个目标的策略梯度算法在策略更新中权衡任务奖励和新颖度奖励，最终得到一些解决特定任务和具有差异化行动序列的策略，并展示该方法在迷宫导航，机械臂和蹦跳机器人的运动任务以及对抗性任务中的有效性。

Abstract

In this work, we present a reinforcement learning algorithm that can find a variety of policies (novel policies) for a task that is given by a task reward function. Our method does this by creating a second rewar

reinforcement learning novel policies autoencoders two-objective update deceptive tasks

发现论文，激发创造

逆向课程生成用于强化学习

本文提出了一种基于逆向强化学习的方法，用于训练机器人完成目标导向任务，该方法自动生成适应智能体表现的初始状态课程，即使面对目前最先进的强化学习方法无法解决的困难仿真导航和纤细操纵问题也可取得显著成果。

Jul, 2017

学习导航探索策略

本研究提出了使用基于学习的方法，实现任务无关的探索性导航的想法，在对比传统的使用几何技术和通用学习技术的情况下，所采用的包括了空间记忆的策略可以更好地探索新的 3D 环境，并将其用于下游任务。

Mar, 2019

通过探索未被重视的奖励来改进政策梯度

本文提出了一种新颖的无模型强化学习策略梯度算法，采用基于概率的有指导性的探索策略，相比现有熵正则化方法更有效地探索高维度的稀疏奖励空间，并在一系列算法任务上得到了成功的应用。

Nov, 2016

逆强化学习与梯度方法的学徒学习

本文提出了一种新的梯度算法，用于从专家观察行为中学习策略，假设专家根据某种未知奖励函数行动最优，算法的目标是找到一个奖励函数使得最优策略与专家观察行为匹配良好，并且在两个人工数据集中表现更加可靠和高效。

Jun, 2012

反向学习的目标导向策略

我们提出了一个多步骤过程，通过学习一个逆向的世界模型、生成目标达成的逆向轨迹、使用最短路径搜索算法改进这些序列，并通过模仿学习训练神经网络策略，肯定地回答了在强化学习中是否可以学习没有奖励的策略以及仅通过尝试达到目标状态是否可以学习策略的问题。在一个确定性迷宫环境中进行评估，其中观测是 64×64 像素鸟瞰图像，并且可以表明该方法始终达到多个目标。

Dec, 2023

自然语言引导的强化学习探索

本文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法，使用编码器 - 解码器网络来学习自然语言行为描述与状态 - 动作信息之间的关联，并使用改进的策略塑造算法来指导智能体探索，从而提高其在未知环境中的学习能力。通过对经典游戏 Frogger 的评价，表明我们的改进策略形态算法在优化学习上优于 Q-Learning 算法和基线策略形态算法。

Jul, 2017

进化算法中新颖性的出现

采用共享奖励系统鼓励多样性行为是避免进化算法陷入局部极小值的有效方法，用于解决迷宫问题和 Atari 游戏，相比 Novelty Search 方法，本文方法实现更简单且性能更好。

Jun, 2022

强化学习智能体自动生成目标

提出了一种基于 Adversarial training 的方法，用于 Reinforcement learning 中任务发现的问题，可以实现在不需要任何先验环境知识的情况下，对多元化任务的高效自动学习，并且能够解决传统上存在的稀疏奖励问题。

May, 2017

发现强化学习算法

该论文提出一种新的元学习方法，可以通过与一组环境交互，发现一个包含价值函数和时间差分学习等元素的更新规则，从而得到一个名为 LPG 的 RL 算法，该方法可以发现自己对于价值函数的替代方案，并有效地推广到复杂的 Atari 游戏中。

Jul, 2020

学习自我模仿多样化策略

本文提出了一种基于自我模仿学习的深度强化学习算法，旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率，并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性，并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效性。

May, 2018