动态控制系统中的内在动机
本文提出了一种基于 Intrinsic motivation 的强化学习方法,其奖励函数被定义为智能体状态与周围状态之间的互信息,实现了比以前的方法更好的效果,包括在没有任何任务奖励的情况下首次完成了 pick-and-place 任务。
Mar, 2021
采用变分方法联合学习估计互信息和动力学模型的必要数量,提供了一种结合不同形式感兴趣结果的广泛框架,将内部激励与奖励最大化相结合,以增强样本效率并将环境的不确定性纳入决策中。
Oct, 2023
通过对智能体控制完成的问题广泛应用增强学习方法进行研究。 基于发展心理学中的内在动机的概念,提出了一个系统性方法来确定内在动机的现有方法。该方法分为三类,分别为互补的内在奖励,探索策略和内在动机的目标。 具有世界模型和内在动机的代理的架构被描述出来,以帮助提高学习能力,同时探讨了在这一领域开发新技术的潜力。
Jan, 2023
本文研究如何将内在动机与深度强化学习相结合,以用于连续系统的有向探索行为。我们基于动物激励系统的现有理论,提出了一种创新的、可扩展的有向探索策略,它受到价值函数误差的最大化的影响。大量实证研究表明,我们的框架可以扩展到更大、更多样化的状态空间,显著提高基线,明显优于非定向策略。
Oct, 2022
本文提出了一种基于动机的奖励设计方法,自动生成目标一致的内在奖励,以最大程度地增大期望的累积外在奖励,该方法在处理延迟奖励、探索和信用分配问题方面优于现有方法。
Jul, 2022
研究了内在动机作为勘探偏差在稀疏回报的协同任务的强化学习中的作用,提出了一种将代理器奖励于不能通过每个代理器单独的效应预测的行为的方法,并在机器人双臂操作和多代理者运动任务中验证了其有效性和效率。
Feb, 2020
本文研究智能的表现之一:通过重新建构环境使生活变得更有利。我们调查了信息论中的代理赋能度量如何提供一种任务无关的内在动机来重新构造世界,并展示了相应代理行为的变化及其对环境的影响。
Jun, 2014