关键词multi-agent interactions
搜索结果 - 10
- 自适应世界模型的自动驾驶规划
模型预测控制基于 BehaviorNet 的 AdaptiveDriver 在 nuPlan 闭环规划基准中取得了最先进的结果,将测试误差从 6.4%降低到 4.6%,即使应用于以前未见的城市。
- LLMArena: 评估大型语言模型在动态多智能体环境中的能力
近期大型语言模型(LLM)在实现具备人类级智能的自主代理方面显示出了潜力,然而现有用于评估 LLM 代理的基准要么使用静态数据集,可能导致数据泄露,要么仅关注单一代理情景,忽略多代理交互的复杂性。我们引入了 LLMArena,这是一个新颖且 - MAGDi: 多智能体交互图的结构化蒸馏提升较小语言模型的推理能力
通过多个大型语言模型之间的多智能体交互,结构化蒸馏途径(MAGDi)通过将多智能体交互表示为图形、通过图形编码器增强基础学生模型,并使用三个目标函数进行知识蒸馏,即下一个标记预测、正确和错误推理之间的对比损失以及基于图形的目标函数。对七个广 - 神经摊销推理的嵌套多智体推理
利用神经网络实现多级代理推理,以加快复杂的多代理推理过程,从而在计算上更高效,减少精确度损失。
- 多智能体空间交互的定性预测
本文介绍并对比三种多机器人交互预测算法,包括使用直观的定性表示,纳入静态和动态上下文,采用输入和时间注意力机制,基于状态 - of-the-art 深度神经网络,利用数据驱动的预测方法和 QTC 空间交互进行运动预测。实验结果表明,纯数据驱 - ECCV智能:多智能体联合递归轨迹预测
本文提出了一种解决多模态数据和场景下多主体交互的轨迹预测问题的方法,使用 convLSTM 结合 CVAE 进行多样性预测,通过多元化的数据集模拟,取得了比现有方法更好的效果
- 基于推断的一般求和差分博弈策略对齐
文章提出了一个通用框架,通过推断其他代理方的平衡状态来解决不确定性问题,并在多人机器人导航问题的模拟中证明,通过对准平衡状态,机器人可以更准确地预测轨迹并降低所有玩家的成本。
- IJCAI分裂 Q 学习:带有双流奖励的强化学习
基于人类决策行为研究,提出了一种强化学习问题的参数化框架,将标准 Q 学习方法扩展到包括与数种神经和精神疾病相关的偏差的奖励处理双流框架中。该框架可帮助理解复杂现实世界中的多智能体互动,并为长期推荐系统打造奖励处理异常的统一计算模型。
- 多智能体团队中可迁移合作行为的学习
提出使用共享的代理 - 实体图来建模多智能体相互作用,并利用基于图的强化学习训练代理实现协作行为,实现了对多种任务的有效解决,并展示了其泛化能力。
- 均场最优控制
本研究引入了平均场最优控制的概念,该概念是将建模多代理交互的 ODE 约束下的有限维最优控制问题与约束为 Vlasov 类型的 PDE 的无限维最优控制问题的严格极限过程。通过考虑损失函数中 $L^1$ -norm 项,惩罚广泛的控制组,同