Aug, 2023

基于视觉的追逐 - 逃避机器人策略学习

TL;DR将从追逐 - 逃避互动中学习战略性机器人行为这一实际约束下的问题转化为一个监督学习问题,其中完全可观测的机器人策略为部分可观测的机器人策略生成监督信号,并发现这个监督信号的质量依赖于两个关键因素:逃避者行为的多样性与最优性的平衡以及完全可观测策略中的建模假设的强度。在野外的追逐 - 逃避互动中,我们部署了这个策略在一台带有 RGB-D 相机的四足机器人上,尽管面临各种挑战,感知限制激发了创造力:机器人在不确定时努力收集信息,从嘈杂的测量中预测意图,并为了拦截而提前预判。