可达结果空间的无监督学习和探索

Sep, 2019

可达结果空间的无监督学习和探索

Unsupervised Learning and Exploration of Reachable Outcome Space

Giuseppe Paolo, Alban Laflaquière, Alexandre Coninx, Stephane Doncieux

TL;DR本文介绍了一种新的基于种群分布式搜索的无任务探索算法 TAXONS，可用于直接从高维观测数据中寻找有效策略，结合重构误差在极少先验知识的情况下自适应驱动搜索，能够在稀疏奖励问题中成功探索出多样化的控制器。

Abstract

Performing reinforcement learning in sparse rewards settings, with very little prior knowledge, is a challenging problem since there is no signal to properly guide the learning process. In such situations, a good

reinforcement learning sparse rewards divergent-search policies autoencoder

发现论文，激发创造

稀疏奖励环境下的品质多样化算法学习

本文介绍了一种新颖的通过解决奖励稀疏性问题的算法，即 Novelty Search，探讨了如何用 Quality-Diversity Methods 来解决这个问题，尝试提出了一种利用 AutoEncoder 学习低维度搜索空间表示的 TAXONS 算法以及能够高效地聚焦于感兴趣的搜索空间部分的 SERENE 算法。

Mar, 2022

用端到端强化学习实现自动分类学归纳

本文提出一种新颖的强化学习方法，旨在从一组术语中自动归纳出分类法，该方法采用多种信息源学习术语对的表示，并使用策略网络确定要选择哪个术语以及将其放置在分类法中的何处，在训练分类法时通过整体树度量进行累积奖励，实验证明，该方法在两个不同领域的两个公共数据集上优于先前的最先进的分类法归纳方法高达 19.6％的祖先 F1。

May, 2018

结构化探索策略的元强化学习

本研究探讨如何从先前的经验中学习探索策略，并介绍了一种新的基于梯度的快速自适应算法（MAESN）来学习从先前任务中发现的探索策略。该方法相比先前的元 RL、RL 无学习的探索策略和任务不可知的探索方法更加有效，并在模拟任务中进行了评估。

Feb, 2018

学习导航探索策略

本研究提出了使用基于学习的方法，实现任务无关的探索性导航的想法，在对比传统的使用几何技术和通用学习技术的情况下，所采用的包括了空间记忆的策略可以更好地探索新的 3D 环境，并将其用于下游任务。

Mar, 2019

无参判别奖励的无监督控制

本文提出了一种基于无人监督学习的算法，用于训练代理达成感知确定目标，通过学习目标条件化策略和目标实现奖励函数，代理人能够在没有手工奖励或专业数据的情况下掌握环境的控制方法。

Nov, 2018

使用数据驱动指导学习任务无关技能

本文提出了一种使用学习的状态投影来引导技能发现，从而使得强化学习的代理人在特定任务中获得了更有用的行为。

Aug, 2021

为高效探索确定目标取向轨迹

本研究查明了纯随机漫步无法在大多数环境中成功扩展探索领域，并提出将单个随机操作选择替换为随机目标选择，该方法与任何基于好奇心的探索和脱机强化学习代理兼容，并生成比单个随机操作更长且更安全的轨迹。

Jul, 2018

使用时空聚类法进行分层强化学习中的选项发现

介绍了一种基于自动技能获取框架的强化学习方法，利用动力学系统和谱聚类算法来识别并建立抽象状态和动作之间的连接；通过该框架可以更加高效地学习和推广多种任务，特别是处理大状态空间的复杂任务时。

May, 2016

路程即是奖励：无监督学习有影响轨迹

该研究提出了一个全新的方法以处理具有大行动空间的复杂环境中的无监督探究和表征的问题，并在考虑到整个轨迹的情况下，通过最大化其对环境未来状态的影响来形式化无监督的探索目标。

May, 2019

使用无监督辅助任务的强化学习

该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。

Nov, 2016