深度强化学习中可转换的高斯奖励函数对于具有社交意识的导航

Feb, 2024

深度强化学习中可转换的高斯奖励函数对于具有社交意识的导航

Transformable Gaussian Reward Function for Socially-Aware Navigation with Deep Reinforcement Learning

Jinyeob Kim, Sumin Kang, Sungwoo Yang, Beomjoon Kim, Jargalbaatar Yura...

TL;DR机器人导航已从优先考虑避障转向采用能够适应人类存在的社交化导航策略，这导致社交化导航在机器人领域内具有显著地位。我们介绍并验证了可变高斯奖励函数（TGRF），该函数显著减轻了超参数调整的负担，在各种奖励函数中具备适应性，并在深度强化学习中展示加速学习速度，尤其在拥挤环境中表现出色，从而为机器人学中的更有效和适应性的方法铺平了道路。

Abstract

robot navigation has transitioned from prioritizing obstacle avoidance to adopting socially aware navigation strategies that accommodate human presence. As a result, the recognition of →

robot navigation socially aware navigation reinforcement learning reward functions transformable gaussian reward function

发现论文，激发创造

基于主动偏好的高斯过程回归用于奖励学习

本文介绍了一种基于用户反馈的偏好学习方法，利用高斯过程 (GP) 对奖励函数进行建模，在不增加结构限制并避免数据不足和刚性的问题的情况下，仅通过比较轨迹即可有效学习机器人任务的表达性奖励函数。

May, 2020

具有深度强化学习的社会感知运动规划

使用深度强化学习，本文研发了一种尊重人们常见社交规范的导航策略，可以使机器人车辆在行人密集的环境中以人类步速进行完全自主导航。

Mar, 2017

SocNavGym：面向社交导航的强化学习 Gym

本文介绍了一种名为 SocNavGym 的仿真环境，该环境可以生成各种社交导航情景，并可以与不同的社交奖励信号配合使用以提供评估结果，同时可以训练出具有高度社交合规性的导航智能体。

Apr, 2023

基于 Transformer 的目标导向强化学习在自主导航中的应用

通过使用新型的 Goal-guided Transformer-enabled reinforcement learning 方法，将目标状态作为场景编码器的输入来引导场景表示与目标信息相耦合，从而有效实现自主导航。该方法具有比其他现有基线更高的数据效率、性能、鲁棒性和从仿真到真实世界的泛化能力。

Jan, 2023

社交集成导航：基于深度强化学习的社交行为机器人

移动机器人在各种拥挤场合中得到广泛应用，社会接受的导航行为是可扩展应用和人类认可的必要条件。深度强化学习方法被用于学习机器人的导航策略和模拟机器人与人类之间的复杂互动。通过在与人类互动的环境中训练深度强化学习策略，我们提出了一种新颖的社会整合导航方法，该方法适应性地产生机器人的社会行为，并且在距离行驶、完成时间和对环境中所有代理的负面影响方面优于社会感知方法。

Mar, 2024

SoLo T-DIRL: 基于轨迹排序深反馈强化学习的社会感知动态局部路径规划器

本文提出了一种社交感知动态本地规划器的新框架，通过利用最近提出的轨迹排序最大熵深逆强化学习方法，从人类演示中学习奖励函数并显式地考虑社交互动因素和社交感知因素，同时提出使用机器人周围行人的突然速度变化来进行轨迹排名评分，从而解决人类演示中的次优问题。实验表明，该方法能够成功地使机器人在拥挤的社交环境中导航，并在成功率、导航时间和入侵率方面优于现有的社交导航方法。

Sep, 2022

利用图神经网络处理稀疏奖励

本研究提出了基于图卷积网络的两种奖励形状方法的改进方案，一种涉及高级聚合函数，另一种则利用了注意机制，我们在三维环境中对我们的解决方案进行了经验验证，结论表明这些改进方案可以有效地提高稀疏奖励情况下的导航任务上深度强化学习算法的收敛性，并且所提出的使用注意力的方案具有可解释性。

Mar, 2022

改进社交机器人导航的强化学习训练方式

自主移动机器人在人类空间中导航必须遵守社会规范。本研究提出了一种使用课程学习来改善强化学习社交导航方法的泛化性能的方法。通过使用多种环境类型和多种动力学模型对行人进行建模，逐步增加训练的多样性和难度。研究结果表明，与之前的训练方法相比，使用课程学习进行训练可以取得更好的泛化性能。此外，我们还验证了训练方法在比训练中使用的更大更拥挤的测试环境中的有效性，从而对模型的性能进行更有意义的衡量。

Aug, 2023

用低保真度模拟的约束机器人人群导航结构化图网络

通过使用低保真度的模拟器，我们研究了使用强化学习政策进行约束群体导航的可行性。我们引入了一种动态环境的表示，将人类和障碍物分开表示。我们的方法在模拟和实际环境中显著改善了导航性能。

May, 2024

基于关注交互图的意图感知机器人人群导航

本文提出一种基于循环图神经网络和注意力机制的新型 RL 方法，通过捕捉时空中多种交互类型来预测人类行为意图，并将该预测应用于无模型 RL 框架中以避免机器人干扰其他个体，从而在人群中实现机器人的安全、高效导航。

Mar, 2022