- 带有性能保证的 ρ-POMDP 中的测量简化
该研究论文介绍了一种有效的决策制定方法,通过对高维观测空间进行划分,并利用这种划分提出了分析边界,以求得期望的信息论奖励,进而在保证性能的同时实现高效规划。该方法在高斯置信度上表现出至少 4 倍的理论性能改善,在模拟和实际实验中也相对其他先 - InteractionNet: 自主驾驶的联合规划与预测
自动驾驶的规划和预测是两个重要模块,现有方法将其视为独立的,忽略了它们之间的相关性,导致对交互和交通场景的动态变化缺乏考虑。为了解决这个挑战,我们提出了 InteractionNet,利用 Transformer 在所有交通参与者之间共享全 - 基于扩散的组合连续约束求解器
介绍一种学习解决连续约束满足问题(CCSP)的方法,在机器人推理和规划中应用。该方法通过将问题表示为因子图,并结合经过训练的扩散模型的能量来获得 CCSP 的全局解。Diffusion-CCSP 对已知约束的新组合表现出强大的泛化能力,并可 - 基于 OWL DL 本体的本体导向规划(扩展版)
基于本文提出的新方法,规划专家和本体专家可以分别处理规划规范和本体,并通过接口进行关联,从而实现对本体引导的规划问题的优化处理,以支持整个 OWL DL 片段。
- 深度学习自动驾驶系统中预测和规划的集成思考:一项综述
自动驾驶有潜力彻底改变个人、公共和货物运输的机动性。通过准确感知环境并利用可获得的传感器数据,自动驾驶需要规划一条安全、舒适和高效的运动轨迹。为了提高安全性和前进步伐,许多研究依赖于预测周围交通的未来运动。模块化的自动驾驶系统通常将预测和规 - 思行者:学习规划与行动
我们提出了 Thinker 算法,这是一种新颖的方法,使强化学习代理能够与学习的世界模型自主交互并利用它。Thinker 算法通过在环境周围包装一个世界模型,并引入专门用于与世界模型交互的新动作,使代理能够通过向世界模型提议替代方案来进行规 - AI 辅助决策在保护中的思考
这篇研究通过总结 AI 辅助决策制定用于保护工作坊的演讲和讨论的关键观点,强调了在生物多样性保护的资源分配、规划和干预方面的重要研究问题,并呼吁生态学家、保护决策者和 AI 研究者协同合作,通过算法决策制定优先解决实际保护挑战。
- 欧几里德对称性在强化学习和规划中可行吗?
该研究论文探讨了改进机器人任务中有对称性的强化学习和规划算法的设计,算法在处理具有欧几里德群对称性的问题时表现出更好的性能。
- MM理解现实世界的人工智能规划领域:一个概念框架
研发了一个概念框架,用于识别和分类真实世界规划领域,特别以可持续建筑作为应用领域,该框架能够影响 AI 规划系统在真实世界应用领域的设计、开发和适用性。
- 使用大语言模型模块化地构建合作体验智能体
论文提出了一种新的基于大型语言模型的多智能体合作框架,在多种身体环境中测试并得到了良好的效果,其具备规划、沟通和与其他人类或智能体合作完成长期任务等能力,并且与人类沟通的模型更容易获得信任,这为未来的智能体合作研究奠定了基础。
- 端到端自动驾驶:挑战与前沿
本文系统分析了 250 多篇论文,涵盖了自主驾驶的动机、路线图、方法论、挑战和未来趋势,并深入探讨了多模态、可解释性、因果混淆、健壮性和世界模型等若干关键挑战,同时讨论了基础模型和视觉预训练的最新进展,以及如何在端到端驾驶框架中整合这些技术 - 离线技能图(OSG):使用离线强化学习技能进行学习和规划的框架
本文介绍了一个离线技能规划的框架,该框架可以在真实世界的实验环境中解决复杂任务,测试了该框架在机械臂上的应用。
- 低秩 POMDP 中可证明高效且具可行性的表示学习
本文研究部分可观测马尔可夫决策过程的表示学习,其中智能体学习将高维原始观察映射到紧凑表示并用于更高效的探索和规划,并提出一种基于最大似然估计和不确定性乐观算法的表示学习算法,从而在计算复杂度上获得高效的采样复杂度。
- 思维习惯:重用动作序列进行高效计划
本篇论文说明了通过采用贝叶斯行动划分机制、嵌入到 Monte-Carlo 搜索树中以及更快速准确的规划路径,通过运动序列的练习来实现搜索树的扩展,减少多步跳转,通过这些操作快速准确地处理物理建模问题。
- 双策略作为规划自我模型
本文研究了利用强化学习中的策略网络作为自模型来规划行动的决策方法,结果表明,相比于自由模型,这种方法训练更稳定,推理速度更快,探索性更好,能够得到一种全面的自我行为理解。
- 基于知识的规划的范畴表示语言和计算系统
本文提出了基于范畴论概念的 C - 集合和双推出重写 (DPO) 的计划表示的一种替代方法,其可以有效处理支持所有层次域抽象的关于世界状态的结构化知识,提供了使用知识图谱和关系型数据库对世界状态和计划更新建模的形式语义,相较于经典规划表示, - 多机器人系统不确定性下的正式建模
本文回顾了多机器人系统模型的形式化方法,并探讨了如何将它们用于计划、加强学习、模型检验和仿真。最近的研究致力于改进方法,准确捕捉多机器人之间的相互影响与不确定性,以及减少模型规模以提高求解效率。然而,现有的多机器人模型存在着在捕捉机器人依赖 - 对话式语言模型的推理即世界模型的规划
本文介绍了基于 Monte Carlo 搜索算法的新型大语言模型推理框架 RAP,利用其上的世界模型进行计划生成和复杂推理。从多个任务测试中,RAP 在效率和准确率上都超过了 Chain-of-Thought 等现有方案。
- EMNLP使用内容计划作为跨语言桥梁的汇总方法 $μ$PLAN
本文介绍一种名为 μPLAN 的跨语言概括方法,该方法使用中间计划步骤作为跨语言桥梁,通过多语言知识库对计划进行对齐来生成摘要。在针对 XWikis 数据集的评估中,该规划方法通过 ROUGE 和忠实度比分方面取得了最先进的性能,并且比非规 - 重新思考在 NuScenes 中终端到终端自主驾驶的开环评估
本论文重新评估了自动驾驶系统在三个主要任务中规划任务的评估方法,并设计了一种基于 MLP 的方法,仅使用原始传感器数据直接输出自车未来轨迹,在 nuScenes 数据集上实现了最先进的端到端规划性能,降低了约 30%的平均 L2 错误。同时