通过继任状态度量学习多样技能的探索

Jun, 2024

通过继任状态度量学习多样技能的探索

Exploration by Learning Diverse Skills through Successor State Measures

Paul-Antoine Le Tolguenec, Yann Besse, Florent Teichteil-Konigsbuch, Dennis G. Wilson, Emmanuel Rachelson

TL;DR通过最大化互信息和探索奖励，我们的LEADS方法能够在不依赖奖励或探索奖励的情况下构建全面覆盖状态空间的多样化技能集合。

Abstract

The ability to perform different skills can encourage agents to explore. In this work, we aim to construct a set of diverse skills which uniformly cover the state space. We propose a formalization of this search

发现论文，激发创造

多样性即是你所需：无需奖励函数学习技能

本文提出了一种无需奖励函数却能学习有用技能的方法DIAYN（“多样性就是你所需的一切”），其通过最大化信息理论目标来实现技能的学习，在多项模拟机器人任务中取得了良好的表现，并且能够服务于其它强化学习相关的挑战。

Feb, 2018

探索、发现与学习：基于无监督方式的状态覆盖技能发现

本文提出了一种名为'探索、发现、学习'（Explore, Discover and Learn, EDL）的方法，用于在没有面向任务的奖励功能的情况下获取技能，从而解决现有信息理论技能探索算法的覆盖问题，并在受控环境中进行全面的评估

Feb, 2020

利用后继特征发现多样化近似最优策略

本篇研究提出了一种名为'Diverse Successive Policies'的新型方法，应用在强化学习中以发掘具有多样性的政策集合，进而实现探索、迁移、层级和鲁棒性等目标。该方法通过将问题形式化为一种约束马尔科夫决策过程（CMDP）实现最大化多样性、最小化多样性奖励之间的相关性以及保证策略的近最优性。研究还发现了最近提出的鲁棒性奖励和差异奖励对实验的灵敏度以及收敛方向等诸多限制，进而提出了新型的多样性奖励机制应对此类限制。实验结果表明，该多样性奖励机制能够有效发现不同区分度的行为模式。

Jun, 2021

直达而散射：增量式无监督技能发现以实现状态覆盖和目标达成

本文介绍了一种针对强化学习中 reward 缺失问题的无监督学习方法，使用互信息框架，引入了 UPSIDE 方法，解决了探索空间覆盖度和导向性之间的平衡问题，通过学习一组多样化的技能，将其组成可不断扩展的树来解决稀疏 reward 任务。在多个导航和控制任务中通过 UPSIDE 方法学习的技能比现有基准表现更好。

Oct, 2021

DOMiNO: 多样性优化，保持接近最优的发现策略

该论文提出了DOMiNO方法用于强化学习中多样性和优化的平衡，通过约束马尔可夫决策过程找到不同的策略，能够发现具有意义的多种行为并且对干扰有很强的鲁棒性。

May, 2022

带偏好的受控多样性：朝着学习多样化的技能集合

本文提出了一种由人类辅助训练的学习机制——“受控多样性和偏好学习”，以确保学到的技能不仅是多样的，而且符合人类期望，在2D导航和Mujoco环境中得到了验证。

Mar, 2023

行为对比学习：无监督技能发现

本文提出了一种基于对比学习的无监督技能发现方法，通过得到相似的行为来表征同一种技能，并使得不同技能产生不同的行为，同时增加状态熵以获得更好的状态覆盖率，实验结果表明，该方法能够产生各种远程技能，并在下游任务中达到有竞争力的表现。

May, 2023

APART: 采用升序奖励和丢弃法的多样化技能发现

在无奖励环境中研究多样化技能发现，使用内在奖励和一个通过轨迹预测技能的判别器进行技能的相互训练，通过使用所有对组合的判别器、新颖的内在奖励函数和辍学正则化技术的方式，取代了标准的一对多（softmax）判别器，所提出的组合方法命名为APART，在简单的网格环境中比以前的方法大大减少了样本数量，研究探究了更简单的算法，通过改变VIC、重新调整内在奖励和调整softmax判别器的温度来实现最大技能，我们相信我们的研究结果揭示了强化学习中技能发现算法成功的关键因素。

Aug, 2023

ComSD: 在无监督技能发现中平衡行为质量和多样性

为了解决质量和多样性冲突的问题，论文提出了一种对比的多目标技能发现方法，通过更合理的互信息估计和动态加权的内在奖励来平衡发现行为的质量和多样性，并在挑战性机器人行为发现任务中展示了优秀的性能。

Sep, 2023

单一目标足矣：技能与探索在无奖励、无示范或子目标的对比强化学习中涌现

本研究解决了在没有奖励、示范或子目标的情况下，如何从对比强化学习中自发涌现技能和有目的探索的问题。通过简单的算法修改，研究表明，智能体能够在仅仅通过观察目标状态的情况下，自主学习技能，并在不依赖任何额外参数的情况下有效进行探索。其发现为理解低资源情况下的智能体学习提供了新视角，具有重要的影响潜力。

Aug, 2024