心理模拟的神经基础：动态场景潜在表征的未来预测

May, 2023

心理模拟的神经基础：动态场景潜在表征的未来预测

Neural Foundations of Mental Simulation: Future Prediction of Latent Representations on Dynamic Scenes

Aran Nayebi, Rishi Rajalingham, Mehrdad Jazayeri, Guangyu Robert Yang

TL;DR通过构建多种感知认知网络模型预测复杂的动态环境，研究发现灵长类动物的神经机制和行为模式与未来在动态可重用视觉表达上的预测最为一致。

Abstract

Humans and animals have a rich and flexible understanding of the physical world, which enables them to infer the underlying dynamical trajectories of objects and events, plausible future states, and use that to plan and anticipate the consequences of actions. However, the neural mechanisms

neural mechanisms sensory-cognitive networks future prediction behavioral readouts dynamic visual representations

发现论文，激发创造

学习物理模型的视觉定位

该论文提出了一种神经模型，同时基于物理学原理和视觉先验进行推理和预测，通过对粒子的估计预测物理参数，即视觉基础，并在刚体、可变形材料和流体的复杂环境中证明了它的有效性，允许模型在几次观察内推断出物理特性，从而快速适应未见过的场景并进行准确的未来预测。

Apr, 2020

神经世界模型与计算机视觉

该研究提出了一种基于计算机视觉概念，使用深度神经网络从摄像头观测和专业演示数据中训练世界模型和政策的通用框架，该模型可以预测鸟瞰图空间中动态汽车的未来轨迹，并在城市驾驶环境中联合预测静态场景、动态场景和特定行为。

Jun, 2023

多元未来预测

为了预测智能与健壮的复杂动态环境下未来的多个目标路径，该论文提出了基于概率的框架来学习表示语义多模态未来的潜在变量，其中利用动态基于注意力的状态编码器学习编码智能体之间的交互，可被用于车辆轨迹预测。

Nov, 2019

近似概率模拟和深度神经网络相对评价作为人类物理场景理解的解释

本文从物理场景理解出发，比较了基于直觉物理引擎、基于记忆模型和基于卷积神经网络的场景理解模型，发现基于模拟的模型在人类思维和感知的角度上更胜一筹，并且拥有更好的泛化能力。

May, 2016

物体中心视觉预测的物理动态学习

本研究提出了一种无监督的物体中心预测模型，通过学习物体之间的视觉动态来进行未来预测，实验结果表明该模型在生成视觉质量和物理可靠性方面优于现有技术。

Mar, 2024

基于神经网络事件分割的层次预期建立

通过自主学习的潜在事件编码，我们模拟了层次预测的发展，并提出了一种采用递归神经网络的分层体系结构，能够生成能够压缩感知动作序列的稀疏变化潜在状态。高层网络能预测潜在状态发生变化的情况。我们在仿真机器人操纵器上进行了实验，结果显示这个系统学习到了准确的数据事件结构，能够生成类似于婴儿眼追踪研究中发现的目标预期行为，并且为自主学习压缩层次编码和利用这些编码来生成自适应行为提供了新的方式。

Jun, 2022

用于视觉运动控制的三维神经场景表示

本文提出了一种从 2D 视觉观察中学习动态 3D 场景模型的方法，结合神经放射场、时间对比学习和自动编码框架，可以学习到视点不变的 3D 感知场景表示，进而实现包括刚体和流体在内的具有挑战性的操作任务的视觉运动控制和未来预测，并支持摄影机视点外训练分布的目标规定，此外，还对不同系统设计进行了详细的改变研究和学习的表示的定性分析。

Jul, 2021

利用自组织的动态神经系统学习世界模型和规划

介绍了一种基于 Hebbian 思想的连接主义架构，该架构可以学习感知和动作之间的关系模型，并将该模型用于行为规划。

Jun, 2003

视频场景理解的概率未来预测

本文提出了一种新颖的深度学习架构，用于从视频中进行概率未来预测。该模型可以预测城市场景中的未来语义、几何和运动，并将此表示用于控制自动驾驶车辆。

Mar, 2020

视觉交互网络

本文介绍了一种基于视觉交互网络的模型，能够从原始视觉观察数据中学习物理系统的动力学，在复杂的物理环境中支持基于模型的决策制定和规划。该模型由基于卷积神经网络的感知前端和基于交互网络的动力学预测器组成，支持从少量视频帧生成准确的未来轨迹预测。

Jun, 2017