- 针对群体间交互问题的可扩展规划和学习框架开发
本研究基于强化学习算法提出了一种将大规模群体冲突问题分解为多个独立的多代理追逐 - 逃脱游戏的框架,该框架通过模拟多种多代理追逐 - 逃脱场景,使用算法来最大效率地消灭敌方群集,从而验证了这种方法的有效性。
- 控制变压器:基于 PRM 引导的返回条件序列建模的机器人在未知环境中导航
本文提出控制变压器 (Control Transformer) 结合基于采样的概率路图规划器 (Probabilistic Roadmap Planner) 的低层策略,应用于机器人领域的长周期任务,结果表明我们的框架可以仅利用局部信息解决 - 基于语义和 RGB 自我视角的目标导航
本文提出了一种使用语义决策使得服务机器人在室内环境中进行导航的架构和方法,使用 GeoSem 映射和以 RGB 为自我视角的相机感知。该方法通过考虑机器人的能动性和场景、物体及其关系的语义表示来指导机器人导航,实验结果表明该方法在游戏化评估 - ICML通过深度强化学习实现平滑轨迹避碰
本论文针对 DRL 导航解决方案中的两个核心问题提出了多种新的代理状态和奖励函数设计,即平滑性训练轨迹和模型泛化能力,利用边缘奖励和平滑度约束来确保无人机平稳飞行,同时大大降低碰撞风险,并演示整个设计和各组件的有效性。
- Habitat-Matterport 3D 语义数据集
介绍了规模、质量和多样性都高于以往数据集的 HM3DSEM 数据集,该数据集使用纹理信息进行像素精度的对象边界注释,使用该数据集训练的策略在 Object Goal Navigation 任务上表现优异,引入该数据集还带来了 Habitat - VER:基于策略的强化学习扩展导致在具身重组中出现导航
Variable Experience Rollout (VER) is a reinforcement learning technique that scales on-policy learning in heterogeneous - 数据驱动导航:概念、模型和实验验证
本文回顾 ANSFL 开发的多学科基于数据驱动的导航算法,其包括适用于人和动物应用、各种自主平台以及多用途导航和融合方法,这些方法在导航领域得到了实验验证和最新的表现。
- LOViS: 为视觉语言导航学习方向和视觉信号
本文设计了一种具有显式方向和视觉模块的神经代理,通过特定的预训练任务,强化代理的空间推理和视觉感知,在 Room2room 和 Room4room 数据集上均取得了最先进的结果。
- 迷宫内基于场所细胞布局一致重放的灵活导航学习计算模型
本文提出了一种计算模型,用于生成符合布局的回放以及解释如何通过布局一致的回放来驱动动物在迷宫中进行灵活的导航。
- 自主无人机导航的强化学习应用:系统综述
该研究探讨了使用强化学习算法解决无人机导航问题,讨论了不同环境下的算法特性和选择,并提出未来的研究方向。
- KDD回家:通过想象路径找到回家的路
通过使用基于像素观察学习到的生成模型,将未访问过的路径纳入规划算法,可以帮助实现动物类的巡航行为,并且可以更准确地预测其新路径。
- 地下救援合作自治:DARPA SubT 中地下无人机
本文提出了一种新型的自主协作无人机(UAV)搜索和救援系统,包括在地下拓扑复杂的环境中使用的新型地图表示、用于导航的新方法以及用于目标检测和定位的视觉感知流水线。
- 神经导航:一种神经可信强化学习库
介绍 Neuro-Nav—— 一个开源库,以神经为基础、可行的强化学习作为模型框架,为决策学习和生物学导航等各个领域提供有趣的可复现场景和数据,并展示了使用深度 RL 等方法扩展该工具箱以解决未来研究需求的方法。
- 密集人群流动感知路径规划
针对机器人在人群中出现的冻结问题,提出了基于人流场的路径规划算法,实现了机器人在人流中更加安全、高效和符合社交规范的移动。
- 基于图像增强的动量记忆内在奖励在稀疏奖励视觉场景中的应用
提出了一种新颖的框架 IAMMIR,将自我监督表征学习和内在动机相结合来解决视觉导航任务中只接受图像和稀疏奖励条件下智能体难以解决的问题。该方法在 Vizdoom 中进行评估,实现了样本效率的最佳表现,并且达到了 100% 的成功率,至少比 - ACL评估具身代理模型泛化能力的限制:基于验证集
研究提出了一种使用自然语言引导体现任务完成的模型,使用模块在更广阔的视野范围内学习选择下一步是否需要导航或操作,改进了现有基准数据集 ALFRED 上的表现。但是,最优模型在未见过的测试集分裂上表现不佳,突出了在机器学习任务中性能波动的需要 - VesNet-RL:基于模拟的强化学习技术用于现实中的超声探针导航
本研究提出了一种基于强化学习的超声探头导航框架,其中使用 UNet 从 US 图像提供二进制掩模,多模态状态表示结构用于准确特征化实际状态,并基于最小边界矩形的特征提取方法建立了新型的标准视图识别方法,结果表明该方法可以有效地、准确地引导探 - 自适应风险倾向:基于分布式强化学习的纳米无人机在杂乱环境下的导航
研究如何使安全关键的机器人(如无人机)应用强化学习来评估风险并做出风险感知决策;通过提出分布式强化学习框架实现自适应风险倾向策略,在模拟环境和真实场景下发现最有效的风险倾向是各不相同的,并且自适应风险倾向的代理表现较好。
- 利用图神经网络处理稀疏奖励
本研究提出了基于图卷积网络的两种奖励形状方法的改进方案,一种涉及高级聚合函数,另一种则利用了注意机制,我们在三维环境中对我们的解决方案进行了经验验证,结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性,并且 - WayFAST: 地面行进预测导航
WayFAST(无路标自主系统)是一种基于自我监督学习方法,使用 RGB 和深度数据以及导航经验,在户外非结构化环境中自动生成适合行走的路径,通过对移动机器人轮胎牵引力的估计以及基于牵引力估计的在线过程中进行自我监督式的算法优化,能够学习避