变分赋能实现无监督实时控制
为了解决通过变分下界 (VLB) 计算确定性经验上均衡值 (EEI) 方法存在的繁琐、高成本等问题,本文采用了基于可训练的高斯信道来构建一种通用的无偏 EM 算法,提出了一种新型方法,能够在不考虑外在奖励的情况下,通过包含每个执行器和未来状态之间的量的交互信息来实现不同控制环境下的稳定性控制,而且该方法能够大大降低采样的复杂性,并展示了该方法的优点。
Jul, 2020
本文研究了内在激励方法 —— 授权在外在奖励信号的增强学习中的应用,提出了一个授权奖励最大化的统一 Bellman 最优性原则,发展了基于授权的演员 - 评论家强化学习算法,并在高维连续机器人领域验证了其性能优于现有技术。
Jul, 2019
通用目标代理需要大量的技能。我们介绍了一种新的框架,层次赋权,在计算赋权时将自目标条件层次强化学习的概念整合进去,通过引入变分下界和层次结构计算赋权。这个框架的研究证实,我们的四级代理能够学习涵盖比之前工作大两个数量级的技能,以在模拟机器人任务中验证其贡献。
Jul, 2023
提出了一种新型的人机辅助方法,通过增加人对环境的控制能力以提高对人的辅助精确性;采用增强学习与人类赋权相结合的方法,实现了一个任务无关的目标,保护人的自主权和实现任何最终状态的能力,并通过在具有挑战性的模拟远程操作任务的共享自主用户研究中成功演示了方法。
Jun, 2020
本章介绍信息论与任务无关的效用函数 “Empowerment”,它被定义为代理的行动和传感器之间的信道容量,并讨论了 Empowerment 作为一种内在动机的通用理念,以及几项应用,展示 Empowerment 如何应用于不同的传感器 - 运动配置,并且相同的形式化可以导致不同的观察行为。此外,我们还提供了连续域中 Empowerment 的快速近似。
Oct, 2013
通过代表愿景达成的功能感知状态表示进行的变分互信息最大化,能够为达到愿景状态的广泛应用的多任务策略的自监督强化学习提供框架和方法,同时还提出了广义 GCRL 和 MI-Based RL 的统一方法,即 VGCRL,并结合方法的容量和光滑性分析了能力扩展,以及其与不同线性变换结构的潜在目标发现算法的比较评价指标,即 LGR。
Jun, 2021
本文介绍一种新的无监督强化学习方法,旨在通过最大化智能体可靠到达的不同状态的数量来发现可用的本质选项集,并提供隐式和显式的选项表示,提供在特定状态下使用的授权最大化代理所需的显式的授权度量。
Nov, 2016
通过生成敌对网络框架,提出一种以权力为基础的正则化最大熵逆向强化学习来学习接近最优的奖励和策略,同时学习变分信息最大化下的权力,并在各种高维复杂控制任务和具有挑战性的转移学习问题上进行了评估,证明了该方法不仅匹配专家行为而且比最先进的逆向强化学习算法表现显著优异。
Sep, 2018
提出一种改进目标函数的模型化强化学习算法,通过互信息最大化来学习视觉模型化强化学习的表示和动力学,并将与行动相关的信息优先考虑,同时提高探索速度和样本效率。在视觉机器人控制任务上进行了评估,表明该方法比基于模型的先进 RL 方法具有更高的性能和采样效率。
Apr, 2022