行动与感知的差异最小化
使用神经网络的好奇心驱动内在动机以及采用自我监督的方法,在简单而生态自然的模拟环境中,实现自主环境探索,获取对环境的理解,从而创造一系列复杂的行为,并提高了对象动态预测、检测、定位和识别任务的性能。
Feb, 2018
使用Bayesian action decoder(BAD)的公开信念马尔可夫决策过程(public belief MDP)算法,成功在Hanabi卡牌游戏中超越了所有以前发表的学习方法和手动编写方法,创立了新的最先进水平。
Nov, 2018
本文提出了一种基于分歧最小化的Imitation Learning方法,即$f$-MAX,将IRL方法如GAIL和AIRL联系起来并揭示了它们的算法特性,通过期望最大化演算法来教授机器人在推手环境中进行多样化的行为。
Nov, 2019
本文在三个机器人任务中系统评估了多种常见的学习和手工工程化表示方法,并从三个方面对每种表现方法进行评估,即维度,可观测性和分离度,发现在输入代理或作为辅助任务的情况下,可以显著提高性能,并挑战了什么是控制机器人'好'表示的见解。
Nov, 2020
本文介绍了一种基于多智能体、开放式学习的方法,其能够使得智能体在一种包含大量挑战、跨越多个任务、更广泛的行为通用化领域中表现出非凡的学习能力。通过在环境中建立一个任务的宇宙,我们的训练代理能够跨越更广泛的任务领域,这个领域自然多智能体,涉及合作竞争等多种类型的游戏,而这一领域的挑战对于智能体来说多种多样,因此,我们提出了一种迭代方法来改进代理的效果,而不是试图最大化一个单一目标。最终,我们证明了这种代理的通用能力,可以通过简单的微调实现更大规模的行为传递。
Jul, 2021
利用相对行为属性的概念,可以从行为片段中优化智能体的行为表现,并以远少于基线方法的反馈次数,实现非专家用户对智能体行为的偏好指定。
Oct, 2022
通过使用潜在嵌入来即时建模行为的影响,在行为自适应策略(AAP)中设计了一种新的基于Transformer的策略头,该策略被用于两个具有挑战性的视觉导航任务中,即使在推理时缺少行为和先前未见过的扰动行为空间时,也表现出很高的性能和鲁棒性。
Apr, 2023
本文提出了IFactor框架,它由四类潜在状态变量建模,以捕捉强化学习系统中各种信息的不同方面,并在合成环境和深度强化学习环境中展示了其性能优于基线的实验结果。
Jun, 2023
我们研究了在未知计算限制下追求未知目标的代理人群建模问题。通过引入潜在推断预算模型(L-IBM),我们能够明确地建模代理人的计算限制,并通过一种迭代推断算法的运行时间来控制。我们通过三个建模任务展示了L-IBM在不确定决策时的能力优于Boltzmann模型,并且推断的推断预算本身具有意义,计算高效,并且与玩家技能、合作人技能和任务难度相关。
Dec, 2023
本文解决了有限资源的智能体在高维环境中高效编码信息的挑战,提出了利用速率失真理论作为框架来探索目标导向的高效编码。研究发现,以行为为中心的表征能够高效地压缩数据,并捕捉成功行为所需的任务相关不变性,而不依赖于对数据的全面重构,这表明最优行为不常依赖于完全重构数据的需求。
Sep, 2024