视觉系统的资源高效感知

May, 2024

Resource Efficient Perception for Vision Systems

A V Subramanyam, Niyati Singal, Vinay K Verma

TL;DR应对高分辨率图像处理中的计算挑战，提出了一种利用内存高效的基于块处理的框架，通过全局上下文表示和局部块信息实现对图像内容的全面理解，并在不受内存限制的情况下对超高分辨率图像进行训练，在分类、目标检测和分割等七个基准测试中取得了卓越性能，甚至在像 Jetson Nano 这样的资源受限设备上也能表现出色。

Abstract

Despite the rapid advancement in the field of image recognition, the processing of high-resolution imagery remains a computational challenge

image recognition high-resolution imagery computational challenge patch based processing memory constraints

发现论文，激发创造

基于内存限制的超高分辨率无人机影像语义分割

该论文阐述了在 GPU 内存限制的情况下，实现高效而有效的超高分辨率无人机图像分割的复杂问题，提出了一种新颖的空间引导式高分辨率查询模块和高效的基于内存的交互方案来改进现有方法中较小、较细和曲线区域的分割效果。

Oct, 2023

高分辨率图像识别的迭代补丁选择

提出一种名为 Iterative Patch Selection (IPS) 的简单方法，该方法仅选择最显着的补丁，将其聚合成用于图像识别的全局表示，从而可以在硬件限制下处理任意大小的图像，展现出强大的性能和广泛的适用性，同时使用最少的加速器内存。

Oct, 2022

基于区域感知上下文融合和交替局部增强的超高分辨率图像分割

本文介绍了一种新的局部感知上下文融合图像分割模型，旨在处理具有大变化语义区域的超高分辨率图像，并通过交替本地增强模块限制冗余信息的负面影响以产生精细结果，实验结果表明其优于其他最先进的方法。

Sep, 2021

一种增强的交通环境低分辨率图像识别方法

低分辨率图像识别中的关键在于特征提取，本文探讨了残差模块的基本维度及其对特征提取和计算效率的影响，并基于实验引入了一种双分支残差网络结构，结合常见特征子空间算法和中间层特征的利用，以提高低分辨率图像在交通环境中的识别精度，并通过知识蒸馏来减少网络参数和计算开销，实验证明该算法在低分辨率交通图像识别中的有效性。

Sep, 2023

高效视频识别的自适应对焦

本文探讨了视频识别中的空间冗余问题，提出了一种基于强化学习的自适应空间视频识别方法（AdaFocus），通过在一个小图像块的空间序列上采用高效的卷积神经网络和循环决策网络来定位和选择最相关的区域，以提高计算效率和精度。

May, 2021

快与慢：基于记忆的移动视频物体检测

本文探讨了通过在计算机视觉系统中使用记忆来改进视频流中的物体检测的精度和减少计算时间的问题。我们通过交替使用传统的特征提取器和极其轻量级的提取器展示了在存在时间记忆的情况下，进行准确检测所需的计算量是非常小的。此外，我们展示了记忆容纳了足够的信息以应用于强化学习算法来学习自适应推断策略。我们的模型在 Imaget VID 2015 数据集上实现了移动方法中的最先进性能，并在 Pixel 3 手机上以 70+ FPS 的速度运行。

Mar, 2019

深度强化学习优化何时何地进行缩放

本文提出了一种名为 PatchDrop 的强化学习方法，该方法可以动态地识别何时和在哪里与配对的低分辨率图像一起使用 / 获取高分辨率数据，从而显著减少高分辨率数据的使用，并在 CIFAR10，CIFAR100，ImageNet 和 fMoW 数据集上保持类似的准确性。

Mar, 2020

结合眼动跟踪、软件视网膜和深度学习的高效自我中心视觉感知

本文介绍了利用生物学方法实现高效自我中心感知的持续性工作，将哺乳动物视网膜的空间变体成像结构与深度学习方法相结合，在控制眼动眼镜的凝视位置的情况下，我们演示了将图像预处理为因子 3 的 DCNN 输入，减少必需训练的时期并在 26,000 多个物体的图像库上训练和验证系统时可获得超过 98% 的分类准确率。

Sep, 2018

图像去马赛克和增强的高分辨率网络

提出了一种高分辨率神经网络（HERN）方法，通过两个并行路径来学习两个不同分辨率下的图像特征，结合全局感知特征和多尺度特征，使用渐进训练方法处理图像去马赛克和增强任务，实现了令人满意的 GPU 内存使用和较快的模型收敛。在 AIM2019 RAW 转 RGB 挑战中取得了最先进的表现。

Nov, 2019

可微分的图像识别补丁选择

通过不可区分的 Top-K 算子选择图像中最相关的部分，以高效处理高分辨率图像。该方法可以与任何下游神经网络接口，以灵活的方式聚合不同补丁的信息，并允许整个模型使用反向传播进行端到端训练。该结果适用于交通标志识别，补丁之间的关系推理以及在训练期间不使用对象 / 部件边界框注释的细粒度识别。

Apr, 2021