多环境中基于好奇心和熵驱动的无监督强化学习

Jan, 2024

多环境中基于好奇心和熵驱动的无监督强化学习

Curiosity & Entropy Driven Unsupervised RL in Multiple Environments

Shaurya Dewan, Anisha Jain, Zoe LaLena, Lifan Yu

TL;DR使用 alpha-MEPOL 方法，在多个环境中处理无监督强化学习，通过对整个环境类的交互进行无任务探索策略的预训练，再使用监督微调该策略来处理不同任务，通过样本轨迹采样、动态 alpha、更高的 KL 散度阈值、基于好奇心的探索以及好奇心的 alpha 百分位数采样等改进方法，提高了性能。

Abstract

The authors of 'unsupervised reinforcement learning in Multiple environments' propose a method, alpha-mepol, to tackle unsupervised RL across multiple environments. They pre-train a →

unsupervised reinforcement learning alpha-mepol task-agnostic exploration policy sampling trajectories curiosity-driven exploration

发现论文，激发创造

多环境下的无监督强化学习

本文提出了一种针对多个环境的无监督强化学习方法，即先通过多个环境的交互数据对策略进行预训练，然后在任意环境下对其进行微调；提出了一种探索策略探索环境中的关键状态；最终通过实验证明了该方法相较从头开始学习的方法明显优势。

Dec, 2021

基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

在强化学习中，人工智能代理通过执行任务来最大化数值奖励，探索是至关重要的，因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理（FEP）提出了隐藏状态好奇心，并发现熵和好奇心可以实现高效探索，特别是两者结合。特别是，在好奇心陷阱方面，具有隐藏状态好奇心的代理展示出了韧性，而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性，并潜在地调整人工和生物代理的学习过程。

May, 2024

自适应惊喜内在动机的无监督强化学习

提出了一个基于多臂赌博机问题的代理模型，该模型根据环境的熵条件动态调整目标，从而鼓励在不同熵环境中出现新的行为和学习技能。

May, 2024

非监督环境设计引发的新兴复杂性和零 - shot 迁移

本文提出一种名为 “PAIRED” 的技术，可自动设计一系列结构化的智能环境用于训练机器学习模型，实验证明 PAIRED 相较于传统方法在零样本迁移学习及新颖环境下的测试表现更优。

Dec, 2020

元学习好奇算法

本文认为好奇心是一种进化机制，能够在智能体的一生中鼓励有意义的探索，以暴露它于能够使其获得高报酬的经验。该文提出了一种基于元学习的产生好奇行为的问题，并使用元学习算法将代理人的奖励信号动态调整来解决问题。作者进一步提出使用元算法来扩大其适用性，并将其他构建块（例如缓冲器、最近邻模块和定制丢失函数）与神经网络结合使用。最终，本文提出的两种好奇心算法在图像导航、机器人和其他领域表现优于人类设计的已发表算法。

Mar, 2020

通过密度估计进行好奇心驱动的经验优先排序

提出了一种好奇心驱动的优先级策略（CDP）框架，通过模仿人类学习流程，着力于相对罕见的事件，使得机器人在强化学习中更加高效地学习并提高性能。

Feb, 2019

多任务强化学习中的高效短视探索

通过在多个任务上进行训练，可以证明多任务强化学习（MTRL）中基于共享结构的一般性策略共享算法具有适用于样本高效率的 myopic 探索设计，这是首次理论证明了 MTRL 的 “探索优势”。而多样性任务集的验证实验证明任务选择与自动课程学习相一致，在合成机器人控制环境的实验中改善了样本效率。

Mar, 2024

一种基于内在动机的学习方法，用于学习高度探索和快速运动策略

本文提出一种新的代理与环境相互作用下的探索策略，旨在最小化步骤数、最大化稳态分布熵的下界，并引入三个下界分别对应三个最优化问题，再基于此提出 IDE$^{3}$AL 算法进行模型驱动的强化学习。

Jul, 2019

无监督环境设计中有效的多样性

利用强化学习的自适应课程和基于新颖距离测量的方法训练代理来适应不同的环境设计，与其他无监督环境设计方法相比，证明了本方法在文献中使用的三个不同基准问题的多样性和有效性。

Jan, 2023

自监督预测驱动下的好奇心驱动探索

通过在自监督逆向动力学模型学习的视觉特征空间中预测行动结果的错误来形成好奇心作为内在奖励信号，提高自主智能体在缺乏外部奖励刺激的情况下探索环境和学习技能的能力，具有在不同领域中推广的潜力。

May, 2017