趣味驱动学习的大规模研究

Aug, 2018

Large-Scale Study of Curiosity-Driven Learning

Yuri Burda, Harri Edwards, Deepak Pathak, Amos Storkey, Trevor Darrell...

TL;DR本文通过大规模实验，研究了无外部奖励下的” 好奇心驱动学习 “ 与外部奖励的比对，研究了用于计算预测误差的不同特征空间，并探究了在随机环境中使用基于预测的奖励的局限性。

Abstract

reinforcement learning algorithms rely on carefully engineering environment rewards that are extrinsic to the agent. However, annotating each environment with hand-designed, dense rewards is not scalable, motivating the need for developing reward functions that are intrinsic to the age

reinforcement learning intrinsic reward curiosity feature space prediction error

发现论文，激发创造

自监督预测驱动下的好奇心驱动探索

通过在自监督逆向动力学模型学习的视觉特征空间中预测行动结果的错误来形成好奇心作为内在奖励信号，提高自主智能体在缺乏外部奖励刺激的情况下探索环境和学习技能的能力，具有在不同领域中推广的潜力。

May, 2017

以混合目标为驱动的好奇心多智能体探索

本文提出了一种基于好奇心驱动的多智能体共探算法，旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明，这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的 MARL 算法的表现。

Oct, 2022

通过内在奖励调节行为：一项调查和实证研究

本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制，探索并比较不同的内在回报机制，重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明，基于学习量的内在奖励可以生成有用的行为，如果每个学习器是内省的。

Jun, 2019

基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

在强化学习中，人工智能代理通过执行任务来最大化数值奖励，探索是至关重要的，因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理（FEP）提出了隐藏状态好奇心，并发现熵和好奇心可以实现高效探索，特别是两者结合。特别是，在好奇心陷阱方面，具有隐藏状态好奇心的代理展示出了韧性，而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性，并潜在地调整人工和生物代理的学习过程。

May, 2024

基于好奇心驱动的强化学习的低层次飞行控制

提出了一种基于好奇心驱动的算法，通过生成适当的马达速度来控制自主学习，使四旋翼可以通过障碍物并将航向朝向目标位置，实现了最优策略的学习和最大化奖励的能力。

Jul, 2023

元学习好奇算法

本文认为好奇心是一种进化机制，能够在智能体的一生中鼓励有意义的探索，以暴露它于能够使其获得高报酬的经验。该文提出了一种基于元学习的产生好奇行为的问题，并使用元学习算法将代理人的奖励信号动态调整来解决问题。作者进一步提出使用元算法来扩大其适用性，并将其他构建块（例如缓冲器、最近邻模块和定制丢失函数）与神经网络结合使用。最终，本文提出的两种好奇心算法在图像导航、机器人和其他领域表现优于人类设计的已发表算法。

Mar, 2020

潜在贝叶斯惊喜驱动下的好奇心驱动探索

利用人工好奇心提高强化学习系统的探索能力，本文提出了一种利用贝叶斯惊奇度作为衡量模型参数先验和后验之间差异的方法，将其应用于代理模型的潜在空间中，大大降低计算成本，研究表明其对连续任务的环境探索和视频游戏分数的影响要好于当前最先进技术，同时具有对抗随机性环境的鲁棒性。

Apr, 2021

稀疏奖励多智能体强化学习中基于好奇心的探索

本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率，而内在动机学习是一种解决稀疏奖励问题的有效方法，文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。

Feb, 2023

通过可达性的情节性好奇心

本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法，能够克服以前算法中的问题，让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。

Oct, 2018

问与探索：基于探求驱动的实地问答

本文提出基于有足实体依据的问答的好奇心算法，通过对自然语言问题的回答获得对环境物理属性和空间关系的了解，为异馆收益任务提供了宝贵的好奇心奖励，从而解决了现有好奇心算法的局限性。

Apr, 2021