基于双流注视的主动视觉学习

Mar, 2024

Towards Two-Stream Foveation-based Active Vision Learning

Timur Ibrayev, Amitangshu Mukherjee, Sai Aparna Aketi, Kaushik Roy

TL;DR基于 “双流假设” 的二元流视觉学习框架通过模拟人类视觉皮层的神经处理机制，利用深度神经网络来处理输入图像，实现了物体属性的预测和边界框的定位。

Abstract

deep neural network (DNN) based machine perception frameworks process the entire input in a one-shot manner to provide answers to both "what object is being observed" and "where it is located". In contrast, the "two-stream hypothesis" from neuroscience explains the neural processing in

deep neural network two-stream hypothesis foveation weakly-supervised object localization bounding box

发现论文，激发创造

双流神经网络解释人类大脑中背侧和腹侧视觉通路的功能分离

人类视觉系统使用两个并行通路进行空间处理和物体识别，而计算机视觉系统往往使用单一的前馈通路，导致其鲁棒性、适应性和效率低于人类视觉。为了弥补这一差距，我们开发了一种受人类眼睛和大脑启发的双流视觉模型，模拟人眼使用巨细胞和小细胞视网膜神经节细胞将视网膜输入分离到大脑的过程。通过对比人脑和模型处理同一视频的功能对齐性，我们发现 WhereCNN 和 WhatCNN 分支分别与视觉皮层的背侧和腹侧通路相匹配，主要因为它们的不同学习目标在视觉注意和物体识别中的显著差异。这种双流模型在脑启发的计算机视觉中迈出了进一步的步伐，使并行神经网络能够主动探索和理解视觉环境。

Oct, 2023

背侧视觉通路的三维视图预测模型

深度神经网络在腹侧视觉流中与脑活动相吻合。然而，灵长类动物视觉系统具有与之不同的背侧处理流，具有不同的功能性质。本研究旨在通过训练自监督几何感知递归神经网络（GRNN）来预测新的相机视图，使用 3D 特征存储器来测试该模型是否与背侧视觉区域的神经响应更吻合。与已被证明在腹侧区域中吻合良好的自监督基准模型相比较，我们发现 GRNN 在背侧脑区能更好地解释方差的比例。我们的研究结果表明了利用任务相关模型来研究视觉流之间的表征差异的潜力。

Sep, 2023

面向主动视觉的预测机器学习

该论文提出了基于主动推理框架的机器学习技术，提出了基于编码自动化和受生物启发的认知结构，并通过计算机模拟证明了该方法的有效性，同时分析了其局限性和优点。

Oct, 2017

利用人类腹侧视觉通路提高神经网络的稳健性

DNNs guided by neural representations from the human ventral visual stream display increasing robustness to adversarial attacks, develop more human-like decision-making patterns, and suggest new robustness solutions by emulating the human brain.

May, 2024

利用深度学习在中央凹区图像中学习搜索和检测物体

研究了利用仿生学注意机制的物体识别方法，通过采用集成注意力、分类和定位的双重任务模型，利用人类注意力系统分辨图像中的感兴趣区域。

Apr, 2023

主动视觉系统固有对抗鲁棒性研究

当前深度神经网络容易受到对抗样本的攻击，添加有针对性的噪音改变预测结果。本研究提出将主动视觉机制融入深度学习系统，通过从不同的注视点获取下采样视觉片段进行学习和推理，实现更大幅度的鲁棒性提升，同时可视化分析证明了从不同注视点进行推理使主动视觉方法对恶意输入更加抵抗。

Mar, 2024

基于双流流程引导的卷积注意力网络用于动作识别

本文提出了一种用于视频动作识别的两流光流引导卷积注意网络模型，通过正确补偿相机运动，可以用光流来引导关注人类前景，从而防止背景干扰，得到了良好的性能表现。

Aug, 2017

需要使用复现来捕获人类视觉系统的表现动态

本研究采用时间分辨脑成像和深度学习的方法，探究人脑视觉处理的层次动态及信息流向，结果表明，回归深度神经网络模型比参数匹配前馈模型更能准确捕捉人脑视觉处理的多区域功能

Mar, 2019

深度学习时代的凝视

本文介绍了一种使用视锥传感器主动关注视觉场景的方法，并提出了一种端到端可区分的视锥主动视觉架构，该架构利用图卷积网络处理视锥图像，并提供一种简单而有效的视锥图像采样形式。我们的模型通过学习迭代地关注与分类相关的图像区域。我们在多个图像数据集上进行了详细实验，比较了我们的方法与先前的视锥视觉方法的性能，同时还测量了不同选择（如视锥程度和网络执行的固定点数）对目标识别性能的影响。我们发现，我们的模型在具有可比参数和给定像素或计算预算的最先进 CNN 和视锥视觉架构上表现更好。

Dec, 2023

深度架构图像跟踪中的注意力学习

提出了一种基于注意力的模型，利用注视数据进行同时进行目标跟踪和识别。模型有两个相互作用的通路：身份和控制，分别模拟神经元科学模型中的「what 和 where」通路，其中前者使用深度（分解）受限玻尔兹曼机模拟对象外观并执行分类，而后者模拟关注对象的位置、方向、大小和速度，并估计状态的后验分布。

Sep, 2011