基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

May, 2024

基于自由能原理的在观测噪声下无害探索的内在回报的模拟研究

Intrinsic Rewards for Exploration without Harm from Observational Noise: A Simulation Study Based on the Free Energy Principle

PDF

Theodore Jerome Tinker, Kenji Doya, Jun Tani

TL;DR在强化学习中，人工智能代理通过执行任务来最大化数值奖励，探索是至关重要的，因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理（FEP）提出了隐藏状态好奇心，并发现熵和好奇心可以实现高效探索，特别是两者结合。特别是，在好奇心陷阱方面，具有隐藏状态好奇心的代理展示出了韧性，而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性，并潜在地调整人工和生物代理的学习过程。

Abstract

In reinforcement learning (RL), artificial agents are trained to maximize numerical rewards by performing tasks. exploration is essential in RL because agents must discover information before exploiting it. Two r

reinforcement learning exploration entropy curiosity hidden state curiosity

发现论文，激发创造

通过最大化 Rényi 熵进行无奖励强化学习框架探索

通过最大化 Renyi 熵的方法，提出了一种适用于元 RL 的无奖励强化学习框架，该框架有效地解决了探索和利用分离的问题，并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。

Jun, 2020

自监督预测驱动下的好奇心驱动探索

通过在自监督逆向动力学模型学习的视觉特征空间中预测行动结果的错误来形成好奇心作为内在奖励信号，提高自主智能体在缺乏外部奖励刺激的情况下探索环境和学习技能的能力，具有在不同领域中推广的潜力。

May, 2017

自适应惊喜内在动机的无监督强化学习

提出了一个基于多臂赌博机问题的代理模型，该模型根据环境的熵条件动态调整目标，从而鼓励在不同熵环境中出现新的行为和学习技能。

May, 2024

强化学习中利用 Rényi 状态熵加速探索

为解决深度强化学习中的长期探索能力问题，本文提出了一种基于 Rényi 熵的新型内在奖励模块，并通过较广泛的模拟结果证明了其高于现有方案的性能。

Mar, 2022

通过受限制优化提升内在奖励

该研究提出了一种名为 EIPO 的优化策略，通过自动调整内在奖励的重要性来平衡任务奖励和内在奖励的关系，以获得最佳探索结果。经过在 61 个 ATARI 游戏中的测试，表现优异。

Nov, 2022

以混合目标为驱动的好奇心多智能体探索

本文提出了一种基于好奇心驱动的多智能体共探算法，旨在鼓励多智能体在合作环境中探索独特而有意义的动作以达到最佳表现。实验表明，这种好奇心驱动的探索方法能够有效促进多智能体整体探索并提升共同导航任务中稀疏奖励的 MARL 算法的表现。

Oct, 2022

信息内容探索

稀疏奖励环境对于强化学习代理是具有挑战性的，本文提出了一种新的内在奖励，系统地量化探索行为并通过最大化代理路径的信息内容来促进状态覆盖，通过与其他探索性内在奖励技术（即好奇心驱动学习和随机网络蒸馏）进行比较，证明了该信息理论奖励具有高效探索，其在包括 Montezuma Revenge 在内的各种游戏中的表现优于其他方法。最后，我们提出了一种在离散压缩的潜在空间中最大化信息内容的扩展方法，提高了样本效率并推广到连续状态空间。

Oct, 2023

潜在贝叶斯惊喜驱动下的好奇心驱动探索

利用人工好奇心提高强化学习系统的探索能力，本文提出了一种利用贝叶斯惊奇度作为衡量模型参数先验和后验之间差异的方法，将其应用于代理模型的潜在空间中，大大降低计算成本，研究表明其对连续任务的环境探索和视频游戏分数的影响要好于当前最先进技术，同时具有对抗随机性环境的鲁棒性。

Apr, 2021

通过可达性的情节性好奇心

本研究提出一种使用基于情景记忆的新奇性奖励机制的强化学习方法，能够克服以前算法中的问题，让代理在视觉环境中进行导航和行走的任务时能够优于 ICM。

Oct, 2018

趣味驱动学习的大规模研究

本文通过大规模实验，研究了无外部奖励下的” 好奇心驱动学习 “ 与外部奖励的比对，研究了用于计算预测误差的不同特征空间，并探究了在随机环境中使用基于预测的奖励的局限性。

Aug, 2018