通过在自监督逆向动力学模型学习的视觉特征空间中预测行动结果的错误来形成好奇心作为内在奖励信号,提高自主智能体在缺乏外部奖励刺激的情况下探索环境和学习技能的能力,具有在不同领域中推广的潜力。
May, 2017
在强化学习中,人工智能代理通过执行任务来最大化数值奖励,探索是至关重要的,因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理(FEP)提出了隐藏状态好奇心,并发现熵和好奇心可以实现高效探索,特别是两者结合。特别是,在好奇心陷阱方面,具有隐藏状态好奇心的代理展示出了韧性,而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性,并潜在地调整人工和生物代理的学习过程。
May, 2024
本文通过大规模实验,研究了无外部奖励下的” 好奇心驱动学习 “ 与外部奖励的比对,研究了用于计算预测误差的不同特征空间,并探究了在随机环境中使用基于预测的奖励的局限性。
Aug, 2018
本文提出了一种基于好奇心驱动的多智能体共探算法,旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明,这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的 MARL 算法的表现。
Oct, 2022
提出了一种基于好奇心驱动的算法,通过生成适当的马达速度来控制自主学习,使四旋翼可以通过障碍物并将航向朝向目标位置,实现了最优策略的学习和最大化奖励的能力。
Jul, 2023
本文提出基于有足实体依据的问答的好奇心算法,通过对自然语言问题的回答获得对环境物理属性和空间关系的了解,为异馆收益任务提供了宝贵的好奇心奖励,从而解决了现有好奇心算法的局限性。
Apr, 2021
本研究讨论了在稀疏奖励情况下深度强化学习方法的稀疏性会影响其样本效率,而内在动机学习是一种解决稀疏奖励问题的有效方法,文章将内在动机学习方法与 Go-Explore 框架相结合提出了一种叫 I-Go-Explore 的方法以缓解其所带来的 detachments 问题。
Feb, 2023
通过结合人类好奇心理论,使用基于图神经网络的强化学习来探索图形化数据,这种内部动机探索方法尤其适用于推荐系统
本文认为好奇心是一种进化机制,能够在智能体的一生中鼓励有意义的探索,以暴露它于能够使其获得高报酬的经验。该文提出了一种基于元学习的产生好奇行为的问题,并使用元学习算法将代理人的奖励信号动态调整来解决问题。作者进一步提出使用元算法来扩大其适用性,并将其他构建块(例如缓冲器、最近邻模块和定制丢失函数)与神经网络结合使用。最终,本文提出的两种好奇心算法在图像导航、机器人和其他领域表现优于人类设计的已发表算法。
Mar, 2020
本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法,能够克服以前算法中的问题,让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。
Oct, 2018