- FootBots: 基于 Transformer 的足球运动预测架构
足球中的运动预测通过捕捉球员和球的相互作用的复杂动力学。我们提出了 FootBots,一种基于编码器 - 解码器变压器结构的体系结构,通过等变性属性来解决运动预测和有条件的运动预测。FootBots 使用集合注意力块和多注意力块解码器来捕捉 - FutureNet-LOF: 未来上下文编码的联合轨迹预测和车道占用场预测
该研究论文主要涉及自主驾驶中的动作预测和未来情景编码,以及使用车道占用区域的新表示法来预测动作。所提出的方法在两个大规模运动预测基准测试上排名第一。
- 自主系统的空间和社会情境感知基于 Transformer 的轨迹预测
提出了一种基于转换器的轨迹预测模型,通过社交张量将目标代理的位移特征丰富化,考虑和周围代理的社交互动信息,以实现对周围代理的反应预测。
- 可控的带扩散模型的长图像动画
在计算机视觉中,从静态图像生成逼真的动画视频是一个重要的研究领域。本文介绍了一种基于运动先验和视频扩散模型的开放领域可控图像动画方法,能够实现对可移动区域的运动方向和速度的精确控制,同时在保持内容、场景和动作协调一致性的同时生成长度超过 1 - ChatGPT 是一种很好的即插即用的少样本人体动作预测模型
利用 ChatGPT 这种离线语言模型和 FMP-OC 框架,我们提出了一种新的少样本运动预测方法,通过提取 ChatGPT 中的隐式知识和采用上下文学习机制,直接进行非语言任务的运动预测,实验证明了我们提出的框架的有效性。
- 基于估计先验的加速扩散模型用于不确定性下鲁棒运动预测
我们提出了一种基于扩散的、可加速的框架,能够高效地预测代理的未来轨迹,具有对噪声的高抗干扰性,并满足自动驾驶车辆所需的严格实时操作标准。
- CVPRMoST: 多模态场景编码用于动作预测
通过将视觉世界划分为场景元素,并利用预训练的图像模型和 LiDAR 神经网络以开放词汇的方式编码所有场景元素,我们提出了一种能够高效编码多帧多模态观察的方法,并且在 Waymo Open Motion 数据集上的实验证明了我们的方法明显优于 - 考虑长期运动趋势的视频预测的状态空间分解模型
通过自适应分解的方法,我们提出了一种状态空间分解的随机视频预测模型,将整体视频帧生成分解为确定性外观预测和随机运动预测,从而增强模型对动态场景的泛化能力。实验结果表明,我们的模型在多个数据集上优于基线模型。
- OFMPNet: 城市环境中的占用和流量预测的深度端到端模型
通过引入一种名为 OFMPNet 的深度编码器 - 解码器模型,利用占据图和场景的运动流来预测环境中所有动态对象的未来行为,并提出了一种新颖的时间加权运动流损失,进一步降低终点误差。该方法在 Waymo Occupancy and Flow - PhysORD: 基于神经符号方法的越野驾驶中融合物理的运动预测
通过将保守定律嵌入到数据驱动的神经模型中,我们提出了 PhysORD,一种用于越野驾驶中运动预测的神经符号方法。我们的实验证明,PhysORD 可以通过建模不确定性准确地预测车辆运动,并且可以容忍外部干扰。它在准确性和效率方面优于现有方法, - 注视引导的手物互动合成:基准与方法
我们介绍了第一个注视引导的手 - 物体交互数据集,并提出了一个新颖的注视引导的手 - 物体交互综合任务。我们的数据集 GazeHOI 通过同时建模注视、手和物体的交互,包含 479 个序列,平均持续时间为 19.1 秒,812 个子序列和 - CVPR具有空间和时间一致性约束的自监督非特定类别运动预测
无标签 LiDAR 点云的自监督运动预测方法证明在运动行为感知、自动驾驶等领域中表现出显著的优势。
- AMP:自主驾驶中基于下一个令牌预测思想的自回归运动预测再研究
本文在自动驾驶领域中引入了 GPT 风格的下一个标记预测技术以实现运动预测的自回归,结合三个分解注意模块和不同的位置编码方式来捕捉驾驶场景中的复杂空间 - 时间和语义关系,实验结果显示该方法在 Waymo Open Motion 和 Way - 自动驾驶的开创性 SE (2) 等变轨迹规划
我们提出了一种轻量级的等变规划模型,它在生成所有车辆的多模态联合预测并选择一个模态作为自主计划时,结合了运动预测和轨迹规划。通过嵌入车辆位置并在潜在空间中沿着高级路线指导自主车辆,我们的方法提供了具有目标导向行为的等变规划,同时在保持等变性 - 大型语言模型驱动的上下文感知运动预测
通过利用大型语言模型(LLMs)增强全局交通语境理解来提高动作预测任务的准确性,并考虑到 LLMs 的成本,我们提出了一种成本效益的部署策略:通过拥有 0.7% 的 LLM 增强数据集来扩大动作预测任务的准确性。
- 迈向可推广和可解释的运动预测:一种深度变分贝叶斯方法
这篇论文提出了目标导向的神经变分智能体 (GNeVA),它是一个可解释的生成模型,用于预测自动驾驶车辆在混合交通流中的潜在行为,具备对分布外情况的强大泛化能力。实验验证了该模型具备可解释性和泛化能力,并能够达到与最先进结果相媲美的性能。
- MS-Net: 多场景运动预测的多路径稀疏模型
提出了一种名为 MS-Net 的多场景网络,通过进化过程训练一种多路径稀疏模型,实现对不同场景下行人运动的预测,实验结果表明,MS-Net 在行人运动预测数据集(如 ETH 和 UCY)上优于现有的最先进方法,并在 INTERACTION - 具有实时循环学习和最大相关熵准则的四元数递归神经网络
我们开发了一个强大的四元数循环神经网络(QRNN),用于实时处理具有异常值的三维和四维数据。这通过将实时递归学习(RTRL)算法与最大相关性准则(MCC)作为损失函数相结合来实现。通过基于广义 HR(GHR)微积分推导出这两种算法,GHR - GenAD: 生成式端到端自动驾驶
提出了一个新的端到端自动驾驶范式,自动驾驶的关键在于预测自车和周围环境随着时间的演变,通过生成建模问题通过 GenAD 框架,模型了自动驾驶问题,并在广泛使用的 nuScenes 基准测试中取得了高效的最新成果。
- SIMPL:自动驾驶中一种简单高效的多智能体运动预测基线
该研究论文提出了一种针对自动驾驶车辆的简单高效动作预测基准(SIMPL),通过采用紧凑高效的全局特征融合模块和连续轨迹参数化方法,实现对所有相关交通参与者的实时准确运动预测,并在与其他最先进方法的 Argoverse 1 和 2 运动预测基