面向向量搜索的硬件和算法协同设计

Jun, 2023

面向向量搜索的硬件和算法协同设计

Co-design Hardware and Algorithm for Vector Search

Wenqi Jiang, Shigang Li, Yu Zhu, Johannes de Fine Licht, Zhenhao He...

TL;DR介绍了一种基于 FPGA 的可扩展矢量搜索框架 FANNS，通过自动协同设计硬件和算法来生成相应的加速器，以在数据中心和 AI 超算中实现未来的 FPGA 集成。

Abstract

vector search has emerged as the foundation for large-scale information retrieval and machine learning systems, with search engines like Google and Bing processing tens of thousands of queries per second on petab

vector search fanns fpgas hardware acceleration machine learning

发现论文，激发创造

重新思考神经网络结构与硬件加速器的共同设计

本研究系统研究了协同设计神经网络架构和硬件加速器的重要性和策略，发现不同的使用场景会导致非常不同的搜索结果，研究表明联合搜索方法在所有延迟目标上始终优于以前的面向平台的神经体系结构搜索、手动设计的模型和最先进的 EfficientNet，可将边缘加速器的能源消耗降低高达 2 倍。

Feb, 2021

巨人的肩膀：硬件和神经网络架构热启动的协同搜索

该论文提出了一种名为 HotNAS 的新颖框架，通过从现有的预训练模型（即模型库）开始，以 “热” 状态启动搜索过程，从而避免了漫长的训练时间，从而将搜索时间从 200 GPU 小时缩短为不到 3 GPU 小时。在 HotNAS 中，我们将硬件设计空间、神经体系结构搜索空间和压缩空间相互集成，以通过模型压缩来创建新的减少延迟的机会，而同时也带来了挑战。论文通过 ImageNet 数据集和 Xilinx FPGA 的实验表明，在 5ms 的时间约束下，HotNAS 生成的神经体系结构的 Top-1 和 Top-5 精度与现有的神经体系结构相比，可以实现高达 5.79% 和 3.97% 的精度提高。

Jul, 2020

深度学习系统的超高性能和能量效率：一种算法 - 硬件协同优化框架

本文旨在实现深度神经网络硬件实现的超高能效和性能，提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架，并在硬件部分采用高效的 FPGA 实现，实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比，该框架至少实现了 152 倍的加速和 71 倍的能效增益。

Feb, 2018

准确性与效率：通过 FPGA-Aware 神经架构搜索实现双赢

本文提出了一种新的硬件感知的神经架构搜索框架，名为 FNAS，使用 Field Programmable Gate Arrays 作为车辆，通过性能抽象模型对神经架构进行快速剪枝，以保证满足实现规范的延迟，并在精度下降少于 1% 的情况下快速搜索到有效的架构。

Jan, 2019

基于向量 - 向量 - 矩阵架构的硬件感知框架：用于 NLP 应用中的低延迟推断

提出一种名为 VVMA 的新型向量 - 向量 - 矩阵体系结构，通过利用专用硬件，降低了神经机器翻译和转换模型的推理时间，并使模型参数和 FLOP 数量减少，同时保持较高准确性。

Oct, 2020

在 GPU 上高效地进行大规模近似最近邻搜索

本研究提出基于 Product Quantization 的两层向量量化树的 ANN 搜索新方法，在 GPU 实现方面取得了比 CPU 更高的性能表现，适用于视频中循环关闭等对时间敏感的高维问题。

Feb, 2017

DNA: 可微分的网络加速器协同搜索

DNA 是一个可搜索匹配网络和加速器，以最大化任务准确性和加速效率的不同 iable Network-Accelerator 同步搜索框架，在 FPGA 和 ASIC 合成中以高于 SOTA 的准确性和 FPS 为代价降低搜索时间

Oct, 2020

神经加速器的硬件 / 软件学习式协同设计

本文提出一种基于硬件 / 软件协同设计的新的约束贝叶斯优化框架，可以自动识别联合设计空间中的优化点，应用于各种神经模型，改善能量延迟产品的性能。

Oct, 2020

关于资源受限硬件平台的神经架构搜索

提出了一种新的框架，用于在限制条件下寻找最优的量化神经架构并实现在给定的硬件规格上，该框架使用 FPGAs 来实现和测试设计并在 CIFAR10 任务中提高了 18％至 68％的准确性。

Oct, 2019

基于 GPU 的十亿级相似度搜索

本文提出了一种优化 k - 选择算法解决高维数据相似度搜索问题的方法，实现了快速且准确的 k - 最近邻图的构建，并在多个方面超越目前的最新 GPU 技术。

Feb, 2017