该研究介绍了信息理论适应度函数,其中一种普适函数 empowerment 可以衡量代理通过其感知 — 运动系统对环境的控制量,该实验将 empowerment 作为第二目标添加到神经元元胞自动机发育中,结果表明发育过程中邻近细胞之间的协同作用对整个发育过程有益,并提供了单细胞转变为多细胞目标形态期间的潜在细胞间通信机制。
Apr, 2022
本文将探讨如何将授权延伸到连续状态,并使用高斯过程回归进行模型学习和预测,研究 empowerment 在探索和在线模型学习方面的应用。
Jan, 2012
介绍了一种计算实用价值下限的方法,使其可用作实时控制中的无监督代价函数,尤其适合于连续动态系统。
Oct, 2017
通用目标代理需要大量的技能。我们介绍了一种新的框架,层次赋权,在计算赋权时将自目标条件层次强化学习的概念整合进去,通过引入变分下界和层次结构计算赋权。这个框架的研究证实,我们的四级代理能够学习涵盖比之前工作大两个数量级的技能,以在模拟机器人任务中验证其贡献。
Jul, 2023
为了解决通过变分下界 (VLB) 计算确定性经验上均衡值 (EEI) 方法存在的繁琐、高成本等问题,本文采用了基于可训练的高斯信道来构建一种通用的无偏 EM 算法,提出了一种新型方法,能够在不考虑外在奖励的情况下,通过包含每个执行器和未来状态之间的量的交互信息来实现不同控制环境下的稳定性控制,而且该方法能够大大降低采样的复杂性,并展示了该方法的优点。
Jul, 2020
本文研究了内在激励方法 —— 授权在外在奖励信号的增强学习中的应用,提出了一个授权奖励最大化的统一 Bellman 最优性原则,发展了基于授权的演员 - 评论家强化学习算法,并在高维连续机器人领域验证了其性能优于现有技术。
Jul, 2019
我们研究了神经元元胞自动机(NCA)模型的架构与其所产生的动态图案之间的关系,并发现 NCA 输出的紧密度和比例性与架构的两个变量之间存在强相关性,因此我们提出了用于创建动态 NCA 的设计原则。
Apr, 2024
本章介绍信息论与任务无关的效用函数 “Empowerment”,它被定义为代理的行动和传感器之间的信道容量,并讨论了 Empowerment 作为一种内在动机的通用理念,以及几项应用,展示 Empowerment 如何应用于不同的传感器 - 运动配置,并且相同的形式化可以导致不同的观察行为。此外,我们还提供了连续域中 Empowerment 的快速近似。
Oct, 2013
通过使用基于神经细胞自动机 (NCA) 的超网络方法,我们可以在受到自组织系统和信息理论方法的启发下,以发育生物学为基础,生长出能够解决常见强化学习任务的神经网络,并探索了如何使用相同的方法来构建发育变形网络,以解决最初强化学习任务的变化版本。
提出了一种新型的人机辅助方法,通过增加人对环境的控制能力以提高对人的辅助精确性;采用增强学习与人类赋权相结合的方法,实现了一个任务无关的目标,保护人的自主权和实现任何最终状态的能力,并通过在具有挑战性的模拟远程操作任务的共享自主用户研究中成功演示了方法。
Jun, 2020