神经世界模型与计算机视觉

Jun, 2023

Neural World Models for Computer Vision

Anthony Hu

TL;DR该研究提出了一种基于计算机视觉概念，使用深度神经网络从摄像头观测和专业演示数据中训练世界模型和政策的通用框架，该模型可以预测鸟瞰图空间中动态汽车的未来轨迹，并在城市驾驶环境中联合预测静态场景、动态场景和特定行为。

Abstract

Humans navigate in their environment by learning a mental model of the world through passive observation and active interaction. Their world model allows them to anticipate what might happen next and act accordingly with respect to an underlying objective. Such world models hold strong

world model autonomous driving computer vision probabilistic future trajectories urban driving

发现论文，激发创造

世界模型

本研究旨在使用生成神经网络建立流行的强化学习环境下的世界模型，并利用该世界模型进行无监督学习，学习环境的空间和时间紧凑表示。通过使用从世界模型提取的特征作为代理输入，我们可以训练出非常紧凑和简单的策略来解决所需任务。我们甚至可以在代理自己的幻象梦境中完全进行训练，并将该策略传输回实际环境中。

Mar, 2018

DriveWorld：4D 预训练场景理解通过 World 模型用于自动驾驶

通过 DriveWorld 框架，从多摄像头自驾车视频中进行时空预训练，有效提高了各种自主驾驶任务的性能。

May, 2024

UniWorld：基于世界模型的自主驾驶预训练

该研究论文利用 Alberto Elfes 在 1989 年的先驱性工作中引入了占据栅格的概念，并为机器人赋予了一种空间 - 时间世界模型（UniWorld），从而感知其环境并预测其他参与者的未来行为。UniWorld 能够估计世界状态中缺失的信息，并预测世界的合理未来状态，该统一预训练框架在运动预测、多相机三维物体检测和周围场景语义完成等关键任务中展现了有希望的结果，对于实现真实世界的自动驾驶具有重要实用价值。

Aug, 2023

自动驾驶的世界模型：初步调查

在自动驾驶领域中，世界模型的能力是重要的，既可以确保安全性和效率性，还能关键性地帮助决策过程，通过合成和解释大量的传感器数据，从而预测潜在的未来情景并弥补信息缺失。本文回顾了自动驾驶领域中当前状态和世界模型的前景发展，包括其理论基础、实际应用以及正在进行的研究努力以克服现有的限制。突出世界模型在推进自动驾驶技术中的重要作用，本综述旨在为研究社区提供基础参考，便于快速获得对这一新兴领域的理解，并激发持续的创新和探索。

Mar, 2024

用于视觉运动控制的三维神经场景表示

本文提出了一种从 2D 视觉观察中学习动态 3D 场景模型的方法，结合神经放射场、时间对比学习和自动编码框架，可以学习到视点不变的 3D 感知场景表示，进而实现包括刚体和流体在内的具有挑战性的操作任务的视觉运动控制和未来预测，并支持摄影机视点外训练分布的目标规定，此外，还对不同系统设计进行了详细的改变研究和学习的表示的定性分析。

Jul, 2021

世界模型和预测编码在认知和发展机器人学中的应用：挑战与前沿

本文探讨了人工智能和机器人的世界模型和预测编码的关系及其在机器人认知发展中的作用，旨在为实现具有真正认知和发展能力的机器人打下基础。

Jan, 2023

深度转向：从时空视觉线索中学习端到端驾驶模型

本文研究利用低成本车载摄像头进行自主驾驶算法，并通过深度神经网络将原始输入图像直接映射到方向盘角度的视觉模型，提出了一种结合空间和时间线索的模型，有助于解释学习到的模型，通过分析人类驾驶数据，比较了此模型与其他自主驾驶车辆状态先进模型的性能差异。

Aug, 2017

使用神经网络捕捉视觉对象

本研究回顾了关于人类目标感知和深度神经网络模型在目标识别方面的相关工作，并探讨了这两个领域如何相互促进，提供了发展新实验任务和推动深度神经网络模型中的目标识别的基准的认知文献和实验任务。

Sep, 2021

将车辆映射到鸟瞰图中的学习

本文提出了一种语义感知变换的方法，将仪表板摄像机视图中的检测结果映射到场景的更广泛、俯视的占用图中，通过大量的合成数据和深度神经网络的训练实现，结果表明该模型能够在真实世界的数据上进行泛化。

Jun, 2017

分层世界模型作为视觉全身人形控制器

基于强化学习的高度数据驱动方法用于视觉全身人形控制，通过层级世界模型生成指令以执行，实现了在模拟 56 自由度人形机器人的 8 个任务上高性能控制策略的合成。

May, 2024