本研究构建了一个非零和博弈框架,在其中考虑了多车相互作用并采用了一个有效的方法 —— 基于模型的强化学习方法,用于解决耦合的哈密顿 - 雅可比 - 贝尔曼方程,来推导纳什均衡驾驶策略,并在非信号化交叉口进行了验证。
Feb, 2023
本文提出了一种基于 Nash 均衡的多人无人机赛车策略规划算法,并通过基于视觉的方法估计对手位置,该算法在无人机赛车模拟和实际硬件试验中表现出有效的竞争力。
Jan, 2018
该研究通过将驾驶游戏建模为拥塞游戏来界定均衡效率,并通过模拟交通拥堵情况对社会成本和个人利益之间的相对权衡进行探究,得出了针对一些问题的 PoA 的改进边界。该研究还通过去中心化多智能体强化学习策略得出了高效均衡状态。
Oct, 2022
本文采用博弈论的方法进行非合作规划,以解决资源利用率导致的个体之间的冲突,并分析在不同规划之间的策略选择中,博弈论方法所得到的纳什均衡解对个体之间的策略行为所产生的影响。
Mar, 2015
本文通过提出基于游戏理论规划者的智能车辆监管方案,并结合后悔最小化技术,用以优化智能车辆的胜率,实现多智能体环境下的自主行驶。
Sep, 2022
本文提出了一种用于自动驾驶的新型博弈理论轨迹规划算法,通过将动态游戏分解为漫长的 “战略” 游戏和短期的 “战术” 游戏,在保证实时性的同时,能够量化自动车辆和人类司机影响彼此的能力和激励,实现更加丰富、安全和有效的自主驾驶行为,并且不依赖于完美理性预测,而是适用于非确定性人类决策的模型。
Oct, 2018
本文提出了一种奖励设计方法,通过多智能体强化学习和黑盒优化使得自利型智能体在非合作多智能体系统中选择的动作能够产生优化的系统结果,并且能通过离线的马尔可夫博弈来得到最优的激励设计结构。
Jan, 2019
研究内容涵盖电子竞技中的机器学习,多代理生成对抗网络的表现力,以及两队博弈中的优化问题和 Nash 均衡解的解决方案。通过考虑全信息反馈下的游戏,对在线学习算法的能力进行了讨论,并提出了一个基于控制论技术的一阶方法用于解决该类问题,该方法能够在某些条件下享有局部收敛性。
Nov, 2021
研究了利用自我私利游戏玩家的多臂赌博机问题,提出了一种能够实现对恶意玩家具有鲁棒性的算法,并构建了两个不同设置下的鲁棒算法,其中一种包括隐式通信的算法,同时针对只能观察奖励或手臂平均值任意变化的情况进行了研究。
Feb, 2020
头对头自主赛车的最优策略研究中,我们提出了一个基于课程学习的框架来逐步过渡到更复杂的真实环境,以教授强化学习代理一个更接近最优策略的方法,并提出了基于控制屏障函数的安全强化学习算法,既能有效保证代理的安全性又不会牺牲策略的最优性。
Aug, 2023