efficient inference | BriefGPT

关键词efficient inference

搜索结果 - 19

Mamba 或 RWKV：探索高质量和高效率的分段任意模型
通过探索不同的线性注意力架构，设计了一种高效的分割模型 RWKV-SAM，具有最佳的精度和效率。同时，利用多尺度令牌设计了一个高质量的解码器来获取高质量的蒙版，并在各种高质量的分割数据集上训练了一个高效且高质量的模型。在效率和分割质量方面，
PDF7 days ago
D2O: 大规模语言模型高效生成推理的动态判别操作
通过 Dynamic Discriminative Operations (D2O) 方法，本研究提出了一种优化 KV 缓存大小的方法，实现了显著的存储节省和提高推理速度，并保持了高质量的长文本生成。
PDF16 days ago
签名二进制化：通过重复稀疏化的效率优化
该论文介绍了在资源受限的边缘设备上进行深度神经网络 (DNN) 的有效推断的方法。它提出了重复 - 稀疏性权衡的概念，并提出了一种统一的协同设计框架，称为有符号二值化，用于解决该权衡问题。该方法在真实硬件上实现了 26% 的加速，能源效率提
PDF7 months ago
MMAdaBrowse: 自适应视频浏览器以提高连续手语识别效率
提出了一种新的自适应模型（AdaBrowse），通过将连续手语识别（CSLR）问题建模成顺序决策任务，动态选择输入视频序列中最具信息量的子序列，并利用时空冗余实现高效计算，对四个大规模 CSLR 数据集进行了广泛的实验，证明了 AdaBro
PDFa year ago
单调深度玻尔兹曼机
本研究提出了单调 Deep Boltzmann machines，架构允许全连接的权重结构的高效（近似）推理，可用于图像联合完成和分类。
PDFa year ago
Flover: 一种用于高效自回归模型并行推理的时空融合框架
在深度学习领域，为了提高模型推理性能，文章提出了名为 Flavor 的时序融合框架，它可应用于各种推理场景，通过提供更细粒度的并行性和采用有效的内存洗牌算法，相对于 NVIDIA Triton FasterTransformer 等先进解决
PDFa year ago
Transformer 推理的全栈优化：一项调查
本文调查了提高 Transformer 模型推理效率的不同方法，包括分析现有模型架构的瓶颈和硬件设计的影响，调度操作的挑战，以及通过神经网络架构搜索来优化 Transformer 模型等研究方向。最后，作者将这些方法应用于一个开源的全栈 D
PDFa year ago
FP8 量化：指数的力量
本研究深入探究了采用浮点数格式（FP8）进行神经网络量化的性能优势，分析了尾数和指数位数选择对性能的影响，并通过大量实验证明，相对于 INT8 格式，FP8 格式具有更高的精度和更优的性能。
PDF2 years ago
KDDM6-Rec: 生成预训练语言模型是开放式推荐系统
通过利用现有的大规模预训练语言模型 M6，基于改进的 prompt tuning 算法和技术手段，建立了一个统一的基础模型，支持工业推荐系统中开放式的各种任务；实现了高效的推理和模型压缩，为检索、排序、零样本推荐、解释生成、个性化内容创建和
PDF2 years ago
Continual Inference: 一个在 PyTorch 中使用深度神经网络进行高效在线推断的库
Continual Inference 是一个 Python 库，用于在 PyTorch 中实现 Continual Inference Networks (CINs)。CINs 是一类神经网络，专门为在线和批处理场景的高效推理而设计。该论
PDF2 years ago
ICCV通过归因排名保护实现通用混合精度量化
本文提出了一种可推广的混合精度量化方法，用于高效推理，利用网络归因排名保持一致性搜索混合量化策略，实现与现有混合精度网络相比具有较强的准确性和复杂度的竞争性性能，同时大大降低了搜索成本。
PDF3 years ago
深度神经网络的完全动态推断
提出了一种全动态模型的方法，称为 LC-Net，旨在最大化深度卷积神经网络的计算效率和任务准确性，通过以层和卷积滤波通道为单位的层次推理动力学，能够预测冗余层和卷积滤波器 / 通道并学习保留计算结果以实现最大化任务准确性。
PDF4 years ago
快速稀疏卷积神经网络
本文介绍了一种使用稀疏性来代替密集操作的高效神经网络建模方法，通过实现一系列高效的稀疏基本操作，并将其用于 MobileNet v1，MobileNet v2 和 EfficientNet 等体系结构中进行了测试，表明稀疏模型不仅效率更高，
PDF5 years ago
ICLROnce-for-All: 训练一个网络并为其专门优化以实现高效部署
我们提出了一种基于一次训练（OFA）网络的方法，通过将训练和搜索分离，支持多种网络结构并可以快速选择以减少计算成本。使用渐进式缩减算法进行高效训练，在各种边缘设备上具有优异的表现和更少的能源成本，赢得了 Low Power Computer
PDF5 years ago
EMNLP标记词之间的空隙：使用提及分隔符识别重叠提及
该论文提出了一种新模型，能够识别重叠提及，引入了一个新的提及分隔符概念和多图表示，能够有效地捕捉提及之间重叠的情况，并证明可以实现高效准确的推理，此外，通过在标准数据集上进行大量的实证分析，证明了该方法的有效性。
PDF6 years ago
使用词嵌入的非参数球形主题建模
本文提出使用 von Mises-Fisher 分布来建模单元球上的单词密度，以构建主题模型，并基于随机变分推理提出了一种高效的推断算法，实现了自然利用词嵌入的语义结构，同时能够灵活地发现主题数量。该方法在两个不同的文本语料库中拥有更好的主
PDF8 years ago
Hamiltonian 大脑：利用兴奋抑制神经电路动态的高效概率推断
该论文研究使用 Hamiltonian Monte Carlo 算法进行概率推断在大脑皮层中的动态行为，并阐明了皮层计算的效率在于神经振荡的加速在推断方向上的重要性。
PDF10 years ago
学习具有观测或潜在 FVS 的高斯图模型
本文研究带有小反馈顶点集的高斯图模型，提出了有效的结构学习算法，特别是针对隐藏变量的情况，能够通过交替低秩校正等方式成功地学习模型参数，并用合成数据和真实数据进行了验证。
PDF11 years ago
基于曲率先验的 MRF 分割和形状修复
本文提出了一个框架，用于发现高阶先验的简洁表示，使得推理更为高效。我们用先前提出的线性函数的下包络来编码这些先验，最大后验推断可以通过离散变量的成对函数最小化来完成。尽管这是一个主要是理论的论文，我们还在图像分割和重建的问题上展示了我们框架
PDF13 years ago