人群导航的混合策略纳什均衡

Mar, 2024

Mixed-Strategy Nash Equilibrium for Crowd Navigation

Muchen Sun, Francesca Baldini, Peter Trautman, Todd Murphey

TL;DR用简单的迭代贝叶斯更新方案证明了混合策略纳什均衡模型收敛于混合策略社交导航游戏的纳什均衡，并提出了一个基于数据驱动的框架，该框架通过将代理策略初始化为从人类数据集中学得的高斯过程来构建游戏。基于提出的混合策略纳什均衡模型，我们开发了一个基于采样的群体导航框架，可以集成到现有的导航方法中，在笔记本电脑的 CPU 上实时运行。我们在模拟环境和非结构化环境中的真实人类数据集上评估了我们的框架，其在安全性和导航效率方面始终优于非学习和基于学习的方法，并在元规划之上达到了人类水平的群体导航性能。

Abstract

We address the problem of finding mixed-strategy nash equilibrium for crowd navigation. mixed-strategy nash equilibrium provides a rigorous model for the robot to anticipate uncertain yet cooperative human behavi

mixed-strategy nash equilibrium crowd navigation bayesian updating scheme data-driven framework sampling-based crowd navigation

发现论文，激发创造

成功的众包导航学习策略

教授自主移动机器人在人群中成功导航是一项具有挑战性的任务，该论文采用神经网络来学习机器人在现场的特定策略，以考虑人类行为和对真实机器人的反应，同时针对各种情景学习相应策略，并对方法、实验结果进行了定量评估。

Apr, 2024

在密集人群中建模合作导航

本文提出了一种模型，通过模拟人 - 人和人 - 机之间的交互，在考虑空间定位的前提下预测机器人在人群中的未来轨迹，对比实验表明该模型对于长时间段内的轨迹预测表现优于现有技术。

May, 2017

利用贝叶斯强化学习辅助导航以避免盲点中的人群

本研究介绍了一种新的算法 BNBRL+，基于部分可观测的马尔科夫决策过程框架评估不可见区域的风险，并在不确定性下制定移动策略，通过将信念算法与贝叶斯神经网络相结合，根据人类的定位数据以概率推断信念，进一步整合机器人、人类和推断信念之间的动力学，确定导航路径并将社交规范嵌入奖励函数中，从而促进了社会感知导航。通过在各种风险环境中进行实验，验证了 BNBRL + 在导航拥挤环境中具有盲区时的有效性。模型在能见度受限的空间中有效导航并动态避开障碍物的能力可以显著提高自动驾驶车辆的安全性和可靠性。

Mar, 2024

用于自主双人无人机竞速的实时博弈论规划器

本文提出了一种基于 Nash 均衡的多人无人机赛车策略规划算法，并通过基于视觉的方法估计对手位置，该算法在无人机赛车模拟和实际硬件试验中表现出有效的竞争力。

Jan, 2018

基于深度强化学习的无地图人群导航移动机器人感知移动风险

提出了一种基于深度强化学习和碰撞概率（Collision Probability，CP）的机器人人群导航方法，以解决机器人导航不稳定性问题。在不同密度的人群行为情景中进行了测试，并与当前最先进的 DRL 方法进行了比较，结果表明该方法表现出色，而且高度泛化。

Apr, 2023

一种两人零和博弈的平均场分析

使用梯度下降法的粒子动态法可以在高维度的情况下找到两个玩家零和持续游戏中的混合纳什均衡，该方法对于训练对抗生成网络的混合模型是有效的。

Feb, 2020

具备历史信息和交互的多子目标机器人在人群中导航

本文提出了一种基于深度强化学习的多子目标机器人导航方法，采用图神经网络对所有机器人和人类的历史信息进行编码与交互，以提高机器人的预测未来场景的能力，并引入选择模块来减少不可靠位置点的出现，实验结果表明该方法在拥挤的人类环境中能够更好地满足任务需求和避免碰撞。

May, 2022

基于推断的一般求和差分博弈策略对齐

文章提出了一个通用框架，通过推断其他代理方的平衡状态来解决不确定性问题，并在多人机器人导航问题的模拟中证明，通过对准平衡状态，机器人可以更准确地预测轨迹并降低所有玩家的成本。

Feb, 2020

使用随机策略网络查找连续动作游戏的混合策略均衡点（无需使用梯度）

本文提出一种基于零阶优化技术、结合平滑梯度估计器和均衡查找动态的方法来解决没有梯度信息的连续行动博弈问题，采用神经网络建模玩家策略，特别是采用随机策略网络来建模混合策略。实验表明，该方法可以快速找到高质量的近似均衡。此外，研究表明，输入噪声的维度对方法的性能至关重要。这是第一篇在未知任何梯度信息的情况下解决了不受限制的连续行动博弈的研究。

Nov, 2022

高社会福利纳什均衡的规范导向学习

本文提出了一种用于训练多智能体系统中的纳什均衡的强化学习框架，该框架利用高级规定来编码目标，并优先考虑多智能体系统的社会福利，经验评估表明，相对于现有方法，本算法计算的纳什均衡策略具有更高的社会福利。

Jun, 2022