动态游戏中数据驱动的先验融合
本文提出了一种用于自动驾驶的新型博弈理论轨迹规划算法,通过将动态游戏分解为漫长的 “战略” 游戏和短期的 “战术” 游戏,在保证实时性的同时,能够量化自动车辆和人类司机影响彼此的能力和激励,实现更加丰富、安全和有效的自主驾驶行为,并且不依赖于完美理性预测,而是适用于非确定性人类决策的模型。
Oct, 2018
通过协作抽样策略,自主汽车之间的合作数据收集被视为 $n$ 个玩家数学游戏,该策略能最小化信息用于收敛到具有所有自主汽车完整信息的集中式观测策略,并展示在感知数据集中的表现优于贪心抽样
Mar, 2023
利用博弈论作为数学框架,解决多智能体运动预测与控制中的交互建模问题。通过建立微分博弈、最优控制和基于能量的模型之间的联系,提出了基于能量的潜力博弈的统一方法,并介绍了结合神经网络进行博弈参数推断的端到端学习应用,该应用具有可解释性并通过两个模拟实验和两个真实驾驶数据集证明了其对各种神经网络模型的预测性能的改善。
Dec, 2023
该研究论文提出了一种基于能量的潜在博弈模型,通过整合神经网络和可微分博弈论优化层,应用于机器人交互中,显示了改进神经网络预测性能的实证结果。
Aug, 2023
本文介绍了一种模型基于策略搜索的自动学习方法,使用概率非参数高斯过渡模型从数据中提取更多信息,以提高学习速度并降低模型误差的影响,已在真实机器人和控制任务中得到了应用。
Feb, 2015
本文提出了一种基于图卷积网络的互动感知约束优化方法,通过同时训练运动预测和控制模块并共享一个包含社交上下文的潜在表示来鼓励安全驾驶和预测运动。实验结果表明,这种方法在 CARLA 城市驾驶模拟器上具有比基线更好的导航策略和运动预测性能。
Jun, 2022
本研究构建了一个非零和博弈框架,在其中考虑了多车相互作用并采用了一个有效的方法 —— 基于模型的强化学习方法,用于解决耦合的哈密顿 - 雅可比 - 贝尔曼方程,来推导纳什均衡驾驶策略,并在非信号化交叉口进行了验证。
Feb, 2023
利用数据驱动的模仿学习框架,通过模仿一个清晰的预测者,解决了机器人规划中的优化问题,从而为序列决策制定了更好的战略。在信息不完整的计划问题上进行了验证,包括真实的无人机实验,并且表现优于现有的算法。
Nov, 2017
本文提出一种基于多输出高斯过程的模拟人类驾驶员交互的方法,并将其作为 “层次化推理” 方法的改进。提出的方法采用连续域框架使无限的策略空间成为可能,进而为自动驾驶控制算法的验证创建高保真仿真平台。
Jan, 2022
本文提出了一种数据驱动的政策细化方法,特别设计用于安全关键应用的强化学习。我们的方法利用数据驱动优化和强化学习的优势,通过迭代细化增强政策的安全性和最优性。我们的主要贡献在于这种数据驱动政策细化概念的数学形式化。此框架通过从数据驱动验证中出现的反例进行学习,系统地改进强化学习政策。此外,我们提出了一系列定理,阐明了我们方法的关键理论特性,包括收敛性、鲁棒性界限、泛化误差和对模型不匹配的适应性。这些结果不仅验证了我们方法的有效性,也为不同环境和场景下的行为提供了更深入的理解。
May, 2023