HarDNet：一种低存储交通量的网络

ICCVSep, 2019

HarDNet: A Low Memory Traffic Network

Ping Chao, Chao-Yang Kao, Yu-Shan Ruan, Chien-Hsiang Huang, Youn-Long Lin

TL;DR本文研究了神经网络在高分辨率任务（如实时目标检测和语义分割）中的推理时间和内存访问流量之间的关系，提出了一个新的神经网络 ——Harmonic Densely Connected Network，在保证低 MACs 和低内存访问流量的前提下，较传统网络可以减少高达 45% 的推理时间。

Abstract

State-of-the-art neural network architectures such as ResNet, MobileNet, and DenseNet have achieved outstanding accuracy over low MACs and small model size counterparts. However, these metrics might not be accurate for predicting the →

neural network inference time memory traffic object detection semantic segmentation

发现论文，激发创造

通过多级原位生成实现内存高效神经网络

本研究提出了一种通用和统一的框架，通过多级现场生成机制和混合精度基准，实现了高分辨率参数的即时恢复，从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算，提高了内存效率 10-20 倍。

Aug, 2021

DenseNets 的内存高效实现

该技术报告介绍了一种减少 DenseNet 在训练期间内存消耗的策略，使得可以在单个 GPU 上训练非常深的网络，并在 ImageNet ILSVRC 分类数据集上获得了最先进的单剪裁 top-1 误差为 20.26%。

Jul, 2017

MCUNetV2: 面向小型深度学习的高效内存补丁推理

该研究提出了一种基于分块的推理调度方法和神经网络重构技术，通过结合神经网络的设计和推理调度，实现了在微控制器单元上高效、准确的深度学习推理，并改善了已有网络的内存瓶颈问题。

Oct, 2021

适应性 ResNet 架构用于资源受限的物联网系统中的分布式推理

本文通过实证研究，鉴定了 ResNet 中可舍弃的连接，以实现在资源不足情况下的分布式计算；同时，提出了一个多目标优化问题，旨在减少延迟、提高准确性；实验证明了自适应的 ResNet 架构可以在分布过程中减少共享数据、能耗和延迟，同时保持高准确性。

Jul, 2023

用于大型图像语义分割的高效梯度式 DenseNets

采用 DenseNet-based 的梯形架构，探究 feature map 缓存对分割任务的影响，最终在多个基准数据集上以更高的预测精度和执行速度超越当时最先进的方法，同时在商用硬件上实现了训练超高分辨率的语义分割任务。

May, 2019

ENet：用于实时语义分割的深度神经网络架构

本篇论文提出一种名为 ENet 的新型深度神经网络架构，其最大特点是快速、参数少，适用于对实时性要求较高的像素级语义分割任务，且在 CamVid、Cityscapes 和 SUN 等数据集上测试表明效果相对优于同类型已有网络。

Jun, 2016

深度神经网络的完全动态推断

提出了一种全动态模型的方法，称为 LC-Net，旨在最大化深度卷积神经网络的计算效率和任务准确性，通过以层和卷积滤波通道为单位的层次推理动力学，能够预测冗余层和卷积滤波器 / 通道并学习保留计算结果以实现最大化任务准确性。

Jul, 2020

Condensation-Net: 交叉通道池化层和虚拟特征图的内存高效网络结构

本文介绍了如何通过交叉通道池化技术减少轻量级卷积神经网络的计算复杂度，提高对象检测的准确性，并采用 Condensation-Net 算法，实现在有限的硬件资源平台上的图像识别任务。

Apr, 2021

移动 / 嵌入式设备高效推理的动态深度神经网络和运行时管理

深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而，由于计算资源有限，有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法，通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中，我们的模型在 Jetson Xavier NX 的 GPU 上使用 ImageNet 数据集相对于最先进的方法，在相似的 ImageNet Top-1 准确率下速度提高了 2.4 倍，或在相似的延迟下准确率提高了 5.1%。同时，我们设计了一个分级运行时资源管理器，在单模型部署场景中达到了 19% 的能量降低和 9% 的延迟降低，在两个并发模型部署场景中能量降低了 89%，延迟降低了 23%。

Jan, 2024

基于深度神经网络的通用嵌入式硬件入口流量估计

使用图像处理和机器学习方法，基于边缘检测的实时交通强度估计系统在树莓派单板计算机上实现，为大规模部署提供了经济有效的解决方案。

Oct, 2023