深度学习时代的凝视

Dec, 2023

Foveation in the Era of Deep Learning

George Killick, Paul Henderson, Paul Siebert, Gerardo Aragon-Camarasa

TL;DR本文介绍了一种使用视锥传感器主动关注视觉场景的方法，并提出了一种端到端可区分的视锥主动视觉架构，该架构利用图卷积网络处理视锥图像，并提供一种简单而有效的视锥图像采样形式。我们的模型通过学习迭代地关注与分类相关的图像区域。我们在多个图像数据集上进行了详细实验，比较了我们的方法与先前的视锥视觉方法的性能，同时还测量了不同选择（如视锥程度和网络执行的固定点数）对目标识别性能的影响。我们发现，我们的模型在具有可比参数和给定像素或计算预算的最先进 CNN 和视锥视觉架构上表现更好。

Abstract

In this paper, we tackle the challenge of actively attending to visual scenes using a foveated sensor. We introduce an end-to-end differentiable foveated active vision architecture that leverages a →

foveated sensor active vision architecture graph convolutional network foveated image sampling object recognition performance

发现论文，激发创造

利用深度学习在中央凹区图像中学习搜索和检测物体

研究了利用仿生学注意机制的物体识别方法，通过采用集成注意力、分类和定位的双重任务模型，利用人类注意力系统分辨图像中的感兴趣区域。

Apr, 2023

FOVEA: 自主导航用凹坑视觉图像放大技术

FOVEA 是一种基于人眼视觉特点，通过可微分的重采样层对高分辨率图像进行智能降采样，保证感兴趣区域的像素不会丢失，在自动驾驶数据集 Argoverse-HD 和 BDD100K 上，能够提升小物体检测的准确率而不降低大物体的准确率，并创造了流媒体 AP（同时考虑准确性和延迟）的新记录。

Aug, 2021

利用视野凹凸突显进行目标探测

本文提出了一种生物启发的凹视检测器（FOD）作为在计算机视觉目标检测中搜索的主要方法中滑动窗口 (SW) 方法的替代方案。这种方法通过结合现代计算机视觉中的目标检测器和人类视觉系统的 V1 层中发现的外围汇集区域的最近模型，实现了显着的计算成本节省。

Aug, 2014

面向主动视觉的预测机器学习

该论文提出了基于主动推理框架的机器学习技术，提出了基于编码自动化和受生物启发的认知结构，并通过计算机模拟证明了该方法的有效性，同时分析了其局限性和优点。

Oct, 2017

深度视觉注意力预测

通过深度学习网络结构，我们的视觉注意力网络从全局到本地不同范围内的多尺度特征中提取等级显著信息以预测人眼的视觉注视点，并在各种基准数据集上实现了最先进的性能表现。

May, 2017

主动视觉系统固有对抗鲁棒性研究

当前深度神经网络容易受到对抗样本的攻击，添加有针对性的噪音改变预测结果。本研究提出将主动视觉机制融入深度学习系统，通过从不同的注视点获取下采样视觉片段进行学习和推理，实现更大幅度的鲁棒性提升，同时可视化分析证明了从不同注视点进行推理使主动视觉方法对恶意输入更加抵抗。

Mar, 2024

基于凹凸显著性机制缓解对抗样本

通过对位于图像不同区域的 CNN 进行应用，来缓解基于对抗性样本的问题，即在图像中引入几乎不可见的扰动来导致 CNN 失效。实验结果表明，CNN 具有局部线性特性，这不仅推翻了先前的假设，还证明了应用 Foveations 机制有助于降低对抗性样本的影响。

Nov, 2015

融合深度卷积网络进行大规模视觉概念分类

本研究从大数据方面对卷积神经网络进行了分析，并在单个和多个网络模型上提出了有效的融合机制，为大数据从业人员提供了最佳实践，从而在保持计算成本较低的情况下，在基准数据集上取得了最先进的结果。

Aug, 2016

视觉目标检测的注意力网络

基于注意力机制的深度神经网络在物体检测任务中的应用

Feb, 2017

基于双流注视的主动视觉学习

基于 “双流假设” 的二元流视觉学习框架通过模拟人类视觉皮层的神经处理机制，利用深度神经网络来处理输入图像，实现了物体属性的预测和边界框的定位。

Mar, 2024