面向向量搜索的硬件和算法协同设计
本研究系统研究了协同设计神经网络架构和硬件加速器的重要性和策略,发现不同的使用场景会导致非常不同的搜索结果,研究表明联合搜索方法在所有延迟目标上始终优于以前的面向平台的神经体系结构搜索、手动设计的模型和最先进的 EfficientNet,可将边缘加速器的能源消耗降低高达 2 倍。
Feb, 2021
该论文提出了一种名为 HotNAS 的新颖框架,通过从现有的预训练模型(即模型库)开始,以 “热” 状态启动搜索过程,从而避免了漫长的训练时间,从而将搜索时间从 200 GPU 小时缩短为不到 3 GPU 小时。在 HotNAS 中,我们将硬件设计空间、神经体系结构搜索空间和压缩空间相互集成,以通过模型压缩来创建新的减少延迟的机会,而同时也带来了挑战。论文通过 ImageNet 数据集和 Xilinx FPGA 的实验表明,在 5ms 的时间约束下,HotNAS 生成的神经体系结构的 Top-1 和 Top-5 精度与现有的神经体系结构相比,可以实现高达 5.79% 和 3.97% 的精度提高。
Jul, 2020
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架,并在硬件部分采用高效的 FPGA 实现,实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比,该框架至少实现了 152 倍的加速和 71 倍的能效增益。
Feb, 2018
本文提出了一种新的硬件感知的神经架构搜索框架,名为 FNAS,使用 Field Programmable Gate Arrays 作为车辆,通过性能抽象模型对神经架构进行快速剪枝,以保证满足实现规范的延迟,并在精度下降少于 1% 的情况下快速搜索到有效的架构。
Jan, 2019
提出一种名为 VVMA 的新型向量 - 向量 - 矩阵体系结构,通过利用专用硬件,降低了神经机器翻译和转换模型的推理时间,并使模型参数和 FLOP 数量减少,同时保持较高准确性。
Oct, 2020
本研究提出基于 Product Quantization 的两层向量量化树的 ANN 搜索新方法,在 GPU 实现方面取得了比 CPU 更高的性能表现,适用于视频中循环关闭等对时间敏感的高维问题。
Feb, 2017
DNA 是一个可搜索匹配网络和加速器,以最大化任务准确性和加速效率的不同 iable Network-Accelerator 同步搜索框架,在 FPGA 和 ASIC 合成中以高于 SOTA 的准确性和 FPS 为代价降低搜索时间
Oct, 2020
本文提出一种基于硬件 / 软件协同设计的新的约束贝叶斯优化框架,可以自动识别联合设计空间中的优化点,应用于各种神经模型,改善能量延迟产品的性能。
Oct, 2020
提出了一种新的框架,用于在限制条件下寻找最优的量化神经架构并实现在给定的硬件规格上,该框架使用 FPGAs 来实现和测试设计并在 CIFAR10 任务中提高了 18%至 68%的准确性。
Oct, 2019
本文提出了一种优化 k - 选择算法解决高维数据相似度搜索问题的方法,实现了快速且准确的 k - 最近邻图的构建,并在多个方面超越目前的最新 GPU 技术。
Feb, 2017