连续智能体环境系统的赋能

Jan, 2012

Empowerment for Continuous Agent-Environment Systems

PDF

Tobias Jung, Daniel Polani, Peter Stone

TL;DR本文将探讨如何将授权延伸到连续状态，并使用高斯过程回归进行模型学习和预测，研究 empowerment 在探索和在线模型学习方面的应用。

Abstract

This paper develops generalizations of empowerment to continuous states. empowerment is a recently introduced →

empowerment continuous states information-theoretic sensorimotor loop model learning

发现论文，激发创造

变分赋能实现无监督实时控制

介绍了一种计算实用价值下限的方法，使其可用作实时控制中的无监督代价函数，尤其适合于连续动态系统。

Oct, 2017

赋权 —— 简介

本章介绍信息论与任务无关的效用函数 “Empowerment”，它被定义为代理的行动和传感器之间的信道容量，并讨论了 Empowerment 作为一种内在动机的通用理念，以及几项应用，展示 Empowerment 如何应用于不同的传感器 - 运动配置，并且相同的形式化可以导致不同的观察行为。此外，我们还提供了连续域中 Empowerment 的快速近似。

Oct, 2013

分层赋权：实现可行的基于赋权的技能学习

通用目标代理需要大量的技能。我们介绍了一种新的框架，层次赋权，在计算赋权时将自目标条件层次强化学习的概念整合进去，通过引入变分下界和层次结构计算赋权。这个框架的研究证实，我们的四级代理能够学习涵盖比之前工作大两个数量级的技能，以在模拟机器人任务中验证其贡献。

Jul, 2023

统一的贝尔曼最优性原理：整合奖励最大化和能量增强

本文研究了内在激励方法 —— 授权在外在奖励信号的增强学习中的应用，提出了一个授权奖励最大化的统一 Bellman 最优性原则，发展了基于授权的演员 - 评论家强化学习算法，并在高维连续机器人领域验证了其性能优于现有技术。

Jul, 2019

无监督稳定性高效赋能估计

为了解决通过变分下界 (VLB) 计算确定性经验上均衡值 (EEI) 方法存在的繁琐、高成本等问题，本文采用了基于可训练的高斯信道来构建一种通用的无偏 EM 算法，提出了一种新型方法，能够在不考虑外在奖励的情况下，通过包含每个执行器和未来状态之间的量的交互信息来实现不同控制环境下的稳定性控制，而且该方法能够大大降低采样的复杂性，并展示了该方法的优点。

Jul, 2020

基于授权的内在动机环境改变

本文研究智能的表现之一：通过重新建构环境使生活变得更有利。我们调查了信息论中的代理赋能度量如何提供一种任务无关的内在动机来重新构造世界，并展示了相应代理行为的变化及其对环境的影响。

Jun, 2014

强化神经元胞自动机

该研究介绍了信息理论适应度函数，其中一种普适函数 empowerment 可以衡量代理通过其感知 — 运动系统对环境的控制量，该实验将 empowerment 作为第二目标添加到神经元元胞自动机发育中，结果表明发育过程中邻近细胞之间的协同作用对整个发育过程有益，并提供了单细胞转变为多细胞目标形态期间的潜在细胞间通信机制。

Apr, 2022

短期增强选择加速了体内稳态神经细胞自动机的进化

本文研究了授权度量的时间尺度对其作为辅助目标加速 NCA 自我平衡的发现的影响，发现在短期内授权的 NCA 更加稳定且能够更好地适应未见的自我平衡挑战。

May, 2023

AvE: 助力赋权

提出了一种新型的人机辅助方法，通过增加人对环境的控制能力以提高对人的辅助精确性；采用增强学习与人类赋权相结合的方法，实现了一个任务无关的目标，保护人的自主权和实现任何最终状态的能力，并通过在具有挑战性的模拟远程操作任务的共享自主用户研究中成功演示了方法。

Jun, 2020

内在动机选项学习：最近方法的比较研究

在强化学习中，Option 在不同时间尺度上进行推理的框架已引起研究界的广泛关注。近年来，无监督学习成为强化学习的研究热点，并在 Option 框架中引入了 “Empowerment”（赋权）这一概念，这是代理人对环境影响力的程度和感知这种影响的能力，可以在没有环境奖励结构的监督下进行优化。许多近期的研究通过多种方式修改这个概念并取得了令人瞩目的结果。本研究通过赋权原则的视角对这些论文进行了比较研究。

Jun, 2022