人类三维主动视觉空间问题解决的心理物理学
通过研究深度神经网络(DNNs)在三维感知挑战中是否具备视角理解(VPT)能力,发现尽管 DNNs 在分析场景和物体的基本三维属性方面表现良好,但在 VPT 任务中与人类存在明显差距,这一挑战表明当前 DNNs 的训练方法和架构适用于学习基本的场景和物体三维属性,但不擅长像人类一样推理这些属性。
Jun, 2024
对于快速动物 vs 非动物分类任务,我们对不同阶段处理的视觉表示进行了分析,并发现人类的决策最符合中间阶段的预测结果。结果表明,人类可能依靠中等复杂度的视觉特征进行快速分类,并且现代深度网络模型所提供的视觉表示的复杂度可能超出人类在这种任务中使用的复杂度。
Jun, 2016
本文介绍了一种基于视觉心理物理学的全面视觉识别模型评估框架,并通过比较卷积神经网络在数百万个过程渲染的 3D 场景和 2D 图像上的性能,提出了新的算法缺陷修正方案,并有力挑战了最近关于类人性能的声明。
Nov, 2016
提出了一个 3D 形状感知的框架,它在分析综合或图像形成的生成模型中解释了典型和非典型情况下的感知,分析和计算研究表明这种方法最符合人类观察者的准确性和响应时间,在困难判别方面与人类表现相关性显著,并提示深度神经网络等机器视觉系统如何实现更具有人类特色的稳健性。
Jan, 2023
人类通过不断变化的视觉刺激来感知世界,其中场景可以移动、改变外观和距离。这篇研究论文针对动态视觉刺激的大多数研究聚焦于静态刺激,限制了对人类视觉的调查。与之相反,动态视觉刺激提供了更符合生态有效性的方法,但由于时空信息的相互作用,使得解耦稳定图像特征和运动表征的困难增加。为了解决这个问题,在动态输入情况下,我们明确地解耦了人脑中静态图像表征和运动表征的建模。三个结果证明了这个方法的可行性。首先,我们展示了视觉运动信息(如光流)可以从 fMRI 测得的脑活动中预测(或解码)出来。其次,我们展示了可以使用这个预测运动来使用基于运动条件的视频扩散模型(其中运动由 fMRI 脑活动驱动)逼真地使静态图像动画化。第三,我们展示了在相反方向上的预测:现有的视频编码器可以进行微调,从视频图像中预测 fMRI 脑活动,并且相较于图像编码器能更有效地进行预测。这项基础工作为解释人类大脑如何处理动态视觉信息提供了一种新颖且可扩展的框架。
Jun, 2024
本文提出了一项新颖的任务,即追踪人类学习者在进行挑战性的视觉分类任务时不断演变的分类行为,提出了一种新的视觉知识追踪模型,并收集三个挑战性的新数据集,从而评估不同的视觉知识追踪方法的性能,结果表明我们的循环模型能够预测人类学习者在三个挑战性的医学图像和物种识别任务中的分类行为。
Jul, 2022
通过 Virtual Tools 游戏,建立了 Sample, Simulate, Update (SSUP) 模型,探究人类灵活解决物理问题的能力,揭示人类将一般物理知识转化为特定任务的行动计划的机制。
Jul, 2019
该研究比较了人类和机器视觉模型在特定任务上的表现差异及难度排名,通过实验展示了一种基于人机协作的方法,在视觉任务中取得了更好的成果。
Apr, 2023
通过使用自我中心相机捕获的观测,本研究旨在模仿人类空间认知能力,从而实现在物体超出视野范围时的 3D 跟踪活动物体的任务。利用 Lift, Match and Keep (LMK) 方法,将部分二维观测提升到三维世界坐标,通过视觉外观、三维位置与物体交互来匹配物体轨迹,并在相机视野之外保留这些物体轨迹,从而记住所看不见的物体。在来自 EPIC-KITCHENS 的 100 段长视频上测试 LMK,结果表明空间认知对于正确定位物体在短时间和长时间尺度上至关重要。例如,在一个长时间的自我中心视角视频中,我们估计了 50 个活动物体的三维位置,其中 60% 在离开相机视野 2 分钟后仍能正确定位到三维空间中。
Apr, 2024