无监督强化学习的混合惊喜

Oct, 2022

A Mixture of Surprises for Unsupervised Reinforcement Learning

Andrew Zhao, Matthieu Gaetan Lin, Yangguang Li, Yong-Jin Liu, Gao Huang

TL;DR提出了一种名为 MOSS 的策略学习方法，通过训练一个同时最大化和最小化惊喜的混合组件来解决先前基于最大惊喜或最小惊喜的方法在真实世界环境中遇到的对环境动态熵的假设问题。实验结果表明，该方法在无监督强化学习领域达到了最新的最优表现。

Abstract

unsupervised reinforcement learning aims at learning a generalist policy in a reward-free manner for fast adaptation to downstream tasks. Most of the existing methods propose to provide an intrinsic reward based on surprise. Maximizing or minimizing surprise drives the agent to either

unsupervised reinforcement learning policy learning maximizing/minimizing surprise entropy assumption moss

发现论文，激发创造

自适应惊喜内在动机的无监督强化学习

提出了一个基于多臂赌博机问题的代理模型，该模型根据环境的熵条件动态调整目标，从而鼓励在不同熵环境中出现新的行为和学习技能。

May, 2024

SMiRL：降低不稳定环境下惊喜的强化学习

本文提出 SMiRL 这个强化学习方法，该方法能让 agent 通过寻求稳定且可预测的情境，进而与环境中的熵对抗，从而能学会玩俄罗斯方块、Doom，控制机器人躲避跌落，以及在迷宫中躲避敌人而不需要任务特定奖励的监督。

Dec, 2019

强化学习中的惊奇最小化泛化

在深度强化学习算法中，泛化仍然是一个具有挑战性的问题，本研究提出并评估了一个意外最小化代理，通过从一个简单的密度模型中学习到的额外奖励，在提供熵和随机性的程序生成游戏环境中呈现出鲁棒性。

Apr, 2020

基于惊奇的内在动机深度强化学习

本文研究了强化学习中探索在复杂环境下的挑战，提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务，利用 MDP 转换概率建模，以最大化代理经历惊奇感为目标。实验表明，本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功，并且性能好于其他启发式探索技术。

Mar, 2017

一种基于内在动机的学习方法，用于学习高度探索和快速运动策略

本文提出一种新的代理与环境相互作用下的探索策略，旨在最小化步骤数、最大化稳态分布熵的下界，并引入三个下界分别对应三个最优化问题，再基于此提出 IDE$^{3}$AL 算法进行模型驱动的强化学习。

Jul, 2019

多环境下的无监督强化学习

本文提出了一种针对多个环境的无监督强化学习方法，即先通过多个环境的交互数据对策略进行预训练，然后在任意环境下对其进行微调；提出了一种探索策略探索环境中的关键状态；最终通过实验证明了该方法相较从头开始学习的方法明显优势。

Dec, 2021

行为对比学习：无监督技能发现

本文提出了一种基于对比学习的无监督技能发现方法，通过得到相似的行为来表征同一种技能，并使得不同技能产生不同的行为，同时增加状态熵以获得更好的状态覆盖率，实验结果表明，该方法能够产生各种远程技能，并在下游任务中达到有竞争力的表现。

May, 2023

非监督强化学习的信息几何

本文研究发现基于相互信息最大化的无监督技能发现算法不一定对于所有潜在奖励函数都能学出最优技能，但它们提供了一个最优初始状态以最小化对抗选择的奖励函数的遗憾。

Oct, 2021

探索机器翻译中的监督和无监督奖励

提出了两种方法来使机器翻译系统对训练中使用的度量函数的依赖性降低，一种是熵正则化 RL 方法，另一种是探索动态无监督奖励函数的新的 RL 方法，这些方法可改善机器翻译的质量和泛化性能，同时减少 BLEU 奖励函数对参考文本中所使用的单词的依赖。

Feb, 2021

使用无监督辅助任务的强化学习

该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。

Nov, 2016