提出了一种名为 MOSS 的策略学习方法,通过训练一个同时最大化和最小化惊喜的混合组件来解决先前基于最大惊喜或最小惊喜的方法在真实世界环境中遇到的对环境动态熵的假设问题。实验结果表明,该方法在无监督强化学习领域达到了最新的最优表现。
Oct, 2022
在强化学习中,人工智能代理通过执行任务来最大化数值奖励,探索是至关重要的,因为代理必须在利用之前发现信息。熵和好奇心是促进有效探索的两种奖励方式。这篇论文基于自由能原理(FEP)提出了隐藏状态好奇心,并发现熵和好奇心可以实现高效探索,特别是两者结合。特别是,在好奇心陷阱方面,具有隐藏状态好奇心的代理展示出了韧性,而预测误差好奇心的代理则受到了干扰。这表明实施 FEP 可能增强强化学习模型的鲁棒性和泛化性,并潜在地调整人工和生物代理的学习过程。
May, 2024
本文研究了强化学习中探索在复杂环境下的挑战,提出了使用基于内在动机的复杂启发式探索策略来解决稀疏奖励下的任务,利用 MDP 转换概率建模,以最大化代理经历惊奇感为目标。实验表明,本文的策略能够在高维状态空间和策略外奖励下的各种环境下成功,并且性能好于其他启发式探索技术。
Mar, 2017
本文通过在一个类似于赌博机的并行学习测试平台中比较 14 个不同的回报机制,探索并比较不同的内在回报机制,重点突出了奖励和预测学习器之间的交互作用和内省预测学习器的重要性。结果表明,基于学习量的内在奖励可以生成有用的行为,如果每个学习器是内省的。
Jun, 2019
为解决深度强化学习中的长期探索能力问题,本文提出了一种基于 Rényi 熵的新型内在奖励模块,并通过较广泛的模拟结果证明了其高于现有方案的性能。
Mar, 2022
该论文介绍了一种深度强化学习代理,它不仅能够直接最大化累积奖励,在共同的表现下还能同时最大化许多其他伪奖励函数,该代理基于不受外部奖励影响的无监督学习得到共同的表现,并对外部奖励进行关注,可以快速适应实际任务,在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。
Nov, 2016
通过多智能体竞争、自我监督的自动课程设置以及规模化的强化学习算法,我们发现代理创建了多个不同的新兴策略,其中许多需要复杂的工具使用和协调,并提供了有关多智能竞争可能扩展至更复杂环境的证据。
Sep, 2019
本文提出了一种基于 Intrinsic motivation 的强化学习方法,其奖励函数被定义为智能体状态与周围状态之间的互信息,实现了比以前的方法更好的效果,包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。
Mar, 2021
该论文证明了最大熵(MaxEnt)强化学习可以用于学习对某些动态干扰和奖励函数干扰具有鲁棒性的策略,是一种简单并具有吸引力形式保证的鲁棒强化学习方法。
使用 alpha-MEPOL 方法,在多个环境中处理无监督强化学习,通过对整个环境类的交互进行无任务探索策略的预训练,再使用监督微调该策略来处理不同任务,通过样本轨迹采样、动态 alpha、更高的 KL 散度阈值、基于好奇心的探索以及好奇心的 alpha 百分位数采样等改进方法,提高了性能。
Jan, 2024