HarDNet:一种低存储交通量的网络
本研究提出了一种通用和统一的框架,通过多级现场生成机制和混合精度基准,实现了高分辨率参数的即时恢复,从而以最小的硬件开销直接将昂贵的内存交易转换为超快的芯片内计算,提高了内存效率 10-20 倍。
Aug, 2021
该技术报告介绍了一种减少 DenseNet 在训练期间内存消耗的策略,使得可以在单个 GPU 上训练非常深的网络,并在 ImageNet ILSVRC 分类数据集上获得了最先进的单剪裁 top-1 误差为 20.26%。
Jul, 2017
该研究提出了一种基于分块的推理调度方法和神经网络重构技术,通过结合神经网络的设计和推理调度,实现了在微控制器单元上高效、准确的深度学习推理,并改善了已有网络的内存瓶颈问题。
Oct, 2021
本文通过实证研究,鉴定了 ResNet 中可舍弃的连接,以实现在资源不足情况下的分布式计算;同时,提出了一个多目标优化问题,旨在减少延迟、提高准确性;实验证明了自适应的 ResNet 架构可以在分布过程中减少共享数据、能耗和延迟,同时保持高准确性。
Jul, 2023
采用 DenseNet-based 的梯形架构,探究 feature map 缓存对分割任务的影响, 最终在多个基准数据集上以更高的预测精度和执行速度超越当时最先进的方法,同时在商用硬件上实现了训练超高分辨率的语义分割任务。
May, 2019
本篇论文提出一种名为 ENet 的新型深度神经网络架构,其最大特点是快速、参数少,适用于对实时性要求较高的像素级语义分割任务,且在 CamVid、Cityscapes 和 SUN 等数据集上测试表明效果相对优于同类型已有网络。
Jun, 2016
提出了一种全动态模型的方法,称为 LC-Net,旨在最大化深度卷积神经网络的计算效率和任务准确性,通过以层和卷积滤波通道为单位的层次推理动力学,能够预测冗余层和卷积滤波器 / 通道并学习保留计算结果以实现最大化任务准确性。
Jul, 2020
本文介绍了如何通过交叉通道池化技术减少轻量级卷积神经网络的计算复杂度,提高对象检测的准确性,并采用 Condensation-Net 算法,实现在有限的硬件资源平台上的图像识别任务。
Apr, 2021
深度神经网络在移动和嵌入式平台上执行推理具有延迟、隐私和始终可用性等多个关键优势。然而,由于计算资源有限,有效地在移动和嵌入式平台上部署深度神经网络具有挑战性。本论文提出了一种结合了算法和硬件的运行时性能权衡管理方法,通过动态超网络实现了实时满足变化的应用性能目标和硬件约束。在实验中,我们的模型在 Jetson Xavier NX 的 GPU 上使用 ImageNet 数据集相对于最先进的方法,在相似的 ImageNet Top-1 准确率下速度提高了 2.4 倍,或在相似的延迟下准确率提高了 5.1%。同时,我们设计了一个分级运行时资源管理器,在单模型部署场景中达到了 19% 的能量降低和 9% 的延迟降低,在两个并发模型部署场景中能量降低了 89%,延迟降低了 23%。
Jan, 2024