通过模仿学习信息聚集
利用数据驱动的模仿学习框架,通过模仿一个清晰的预测者,解决了机器人规划中的优化问题,从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证,包括真实的无人机实验,并且表现优于现有的算法。
Nov, 2017
机器人在开放环境中操作时,会遇到未知的物理特性的新对象,需要通过交互来感知这些特性,并利用生成的世界模型来估计物体的物理参数,并开发一种信息收集模型预测控制器,以自主学习触觉探索策略。我们的研究在虚拟环境中评估了这种方法,发现我们的方法能够以直观的方式高效地收集关于所需特性的信息。最后,我们在真实机器人系统上验证了我们的方法,成功地从零开始学习和执行信息收集策略以估计物体的高度。
Nov, 2023
通过规划最大化任务最优轨迹的期望信息增益的行动序列,使得该方法在较低的样本量下能够学习较强的策略,比探索基线算法少用 2 倍样本,比模型自由方法少用 200 倍样本。
Oct, 2022
通过开发计算上高效且有效的算法,我们为在不确定信念状态下预测可能的传感器测量结果这一困难问题提供了一个更精确的近似解。实验结果表明,在多旋翼飞行器的广泛模拟和实地实验中,我们的方法在无线电源跟踪和定位问题中取得了改进的性能增益。
May, 2024
使用 SaIL 特有的算法,训练启发式策略来遍历搜索树中的节点,以减少搜索次数。实验证明 SaIL 算法在实时规划环境中优于现有算法,这为学习体现 ' 快速找到可行解并随时间增量调整 ' 的启发式方法铺平了道路。
Jul, 2017
本研究通过将深度神经网络和强化学习技术相结合,实现了一种基于内部奖励机制的主动信息搜寻系统,通过在部分可见的环境中寻找并整合信息以实现各种目标,实验表明这种方法可以显著提高智能体搜寻信息的效率。
Dec, 2016
将从追逐 - 逃避互动中学习战略性机器人行为这一实际约束下的问题转化为一个监督学习问题,其中完全可观测的机器人策略为部分可观测的机器人策略生成监督信号,并发现这个监督信号的质量依赖于两个关键因素:逃避者行为的多样性与最优性的平衡以及完全可观测策略中的建模假设的强度。在野外的追逐 - 逃避互动中,我们部署了这个策略在一台带有 RGB-D 相机的四足机器人上,尽管面临各种挑战,感知限制激发了创造力:机器人在不确定时努力收集信息,从嘈杂的测量中预测意图,并为了拦截而提前预判。
Aug, 2023
本研究针对部分已知环境探索问题,以信息论目标函数为目标,将其视为部分可观察马尔可夫决策过程 (POMDP),并通过 open-loop 逼近算法求解。提出了新的互信息采样逼近方法用于移动机器人,结果显示 POMDP 探索算法在某些情况下可以提高性能。
Feb, 2015
通过将探索驱动的学习概念性地统一监督学习和强化学习之间的探索驱动学习,我们提出了广义探索问题,以突出不同学习设置之间的关键相似之处和开放研究挑战,广义探索是用于维护开放式学习过程的必要目标。
Nov, 2022
介绍了一种名为 Disentangling Generative Adversarial Imitation Learning(DisentanGAIL)的新算法,可通过对抗学习来自动学习高维度任务表现观察的特征,从而成功进行模仿,同时忽略专家和代理之间的差异,此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。
Mar, 2021