潜在贝叶斯惊喜驱动下的好奇心驱动探索
通过在自监督逆向动力学模型学习的视觉特征空间中预测行动结果的错误来形成好奇心作为内在奖励信号,提高自主智能体在缺乏外部奖励刺激的情况下探索环境和学习技能的能力,具有在不同领域中推广的潜力。
May, 2017
在强化学习中,人工智能代理通过执行任务来最大化数值奖励,探索是至关重要的,因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理(FEP)提出了隐藏状态好奇心,并发现熵和好奇心可以实现高效探索,特别是两者结合。特别是,在好奇心陷阱方面,具有隐藏状态好奇心的代理展示出了韧性,而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性,并潜在地调整人工和生物代理的学习过程。
May, 2024
本文认为好奇心是一种进化机制,能够在智能体的一生中鼓励有意义的探索,以暴露它于能够使其获得高报酬的经验。该文提出了一种基于元学习的产生好奇行为的问题,并使用元学习算法将代理人的奖励信号动态调整来解决问题。作者进一步提出使用元算法来扩大其适用性,并将其他构建块(例如缓冲器、最近邻模块和定制丢失函数)与神经网络结合使用。最终,本文提出的两种好奇心算法在图像导航、机器人和其他领域表现优于人类设计的已发表算法。
Mar, 2020
本文研究了强化学习中探索在复杂环境下的挑战,提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务,利用 MDP 转换概率建模,以最大化代理经历惊奇感为目标。实验表明,本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功,并且性能好于其他启发式探索技术。
Mar, 2017
提出了一种基于好奇心驱动的算法,通过生成适当的马达速度来控制自主学习,使四旋翼可以通过障碍物并将航向朝向目标位置,实现了最优策略的学习和最大化奖励的能力。
Jul, 2023
本文通过大规模实验,研究了无外部奖励下的” 好奇心驱动学习 “ 与外部奖励的比对,研究了用于计算预测误差的不同特征空间,并探究了在随机环境中使用基于预测的奖励的局限性。
Aug, 2018
本文介绍了一种基于模型不确定性估计的机制,通过引入基于贝叶斯不确定性的内在奖励来提高强化学习中的探索效率,并将隐式的生成建模方法用于训练。实验结果表明,与其他探索方法相比,该算法在提高数据效率方面表现出色。
Nov, 2019
本文提出一种基于模型行动选择的强化学习方法,该方法在价值函数的潜在特征空间中学习动态模型,实现机器人和环境的动态表示和模型自我激励,从而解决传统方法当中的探索与利用权衡问题,并使用贝叶斯信息理论方法在高维状态空间中实现高效的计算。我们在多个连续控制任务中评估了该方法的性能,重点是改善探索。
Apr, 2018
本文综述了心理好奇心对于人类智能的重要作用,阐述了人工好奇心与人类认知发展的联系及其应用场景,并对强化学习、推荐系统和分类方法等领域中已有的好奇心驱动学习方法进行综述,提出了深入研究的方向和未来的改进工作。
Jan, 2022