通过可达性的情节性好奇心

ICLROct, 2018

Episodic Curiosity through Reachability

Nikolay Savinov, Anton Raichuk, Raphaël Marinier, Damien Vincent, Marc Pollefeys...

TL;DR本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法，能够克服以前算法中的问题，让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。

Abstract

Rewards are sparse in the real world and most of today's reinforcement learning algorithms struggle with such sparsity. One solution to this problem is to allow the agent to create rewards for itself - thus making rewards dense and more suitable for learning. In particular, inspired by curious behaviour in animals, observing something novel could be rewarded

reinforcement learning sparse rewards curiosity memory environment dynamics

发现论文，激发创造

自监督预测驱动下的好奇心驱动探索

通过在自监督逆向动力学模型学习的视觉特征空间中预测行动结果的错误来形成好奇心作为内在奖励信号，提高自主智能体在缺乏外部奖励刺激的情况下探索环境和学习技能的能力，具有在不同领域中推广的潜力。

May, 2017

基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

在强化学习中，人工智能代理通过执行任务来最大化数值奖励，探索是至关重要的，因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理（FEP）提出了隐藏状态好奇心，并发现熵和好奇心可以实现高效探索，特别是两者结合。特别是，在好奇心陷阱方面，具有隐藏状态好奇心的代理展示出了韧性，而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性，并潜在地调整人工和生物代理的学习过程。

May, 2024

基于好奇心的多标准事后经验回放

本文提出一种方法，将后见之明与好奇心驱动探索和课程学习相结合，以解决具有挑战性的稀疏奖励堆叠块任务，并且此方法成功地实现了在机器人手臂上堆叠两个以上的块，而无须使用人的演示。

Jun, 2019

元学习好奇算法

本文认为好奇心是一种进化机制，能够在智能体的一生中鼓励有意义的探索，以暴露它于能够使其获得高报酬的经验。该文提出了一种基于元学习的产生好奇行为的问题，并使用元学习算法将代理人的奖励信号动态调整来解决问题。作者进一步提出使用元算法来扩大其适用性，并将其他构建块（例如缓冲器、最近邻模块和定制丢失函数）与神经网络结合使用。最终，本文提出的两种好奇心算法在图像导航、机器人和其他领域表现优于人类设计的已发表算法。

Mar, 2020

趣味驱动学习的大规模研究

本文通过大规模实验，研究了无外部奖励下的” 好奇心驱动学习 “ 与外部奖励的比对，研究了用于计算预测误差的不同特征空间，并探究了在随机环境中使用基于预测的奖励的局限性。

Aug, 2018

稀疏奖励多智能体强化学习中基于好奇心的探索

本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率，而内在动机学习是一种解决稀疏奖励问题的有效方法，文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。

Feb, 2023

通过椭圆周期性奖励进行探索

研究了强化学习（RL）方法在探索复杂环境时的有效性，并引入通过椭圆形周期性奖励探索方法（E3B）以扩展计数周期性奖励至连续状态空间，使用反向动力学模型学习嵌入以捕获环境可控方面，可扩展到高维像素感知和现实环境中。在挑战任务中实现了全新的 state-of-the-art，而不需要特定于任务的归纳偏差，并在稀疏奖励、基于像素的 VizDoom 环境中与现有方法匹配，在 Habitat 上的无奖励探究中优于现有方法。

Oct, 2022

以混合目标为驱动的好奇心多智能体探索

本文提出了一种基于好奇心驱动的多智能体共探算法，旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明，这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的 MARL 算法的表现。

Oct, 2022

具有好奇心驱动探索的情节式多智能体强化学习

本篇论文提出了 Episodic Multi-agent 强化学习方法，并把个体 Q 值预测误差作为内部奖励，使用情节式记忆从经验中提升策略训练，从而实现多代理协作性问题的有效探索和高效学习。在 StarCraft II 微型管理基准测试中，我们的方法显著优于现有情况下的 MARL 基线。

Nov, 2021

通过密度估计进行好奇心驱动的经验优先排序

提出了一种好奇心驱动的优先级策略（CDP）框架，通过模仿人类学习流程，着力于相对罕见的事件，使得机器人在强化学习中更加高效地学习并提高性能。

Feb, 2019