inference speed | BriefGPT - AI 论文速递

关键词inference speed

搜索结果 - 111

OmniQuant：大型语言模型的全向校准量化
利用 OmniQuant 技术对大型语言模型进行后训练量化，实现了在多种量化设置下的出色性能，同时保持计算效率；在实际设备上能够显著提高推理速度和内存减少。
PDFa year ago
利用早期退出在自动调制分类中进行快速推断
通过应用早期退出方法来加速深度学习模型的推断过程，本文提出了四种早期退出架构和一种自定义的多分支训练算法，研究了模拟调制分类的分类准确性和推断时间之间的权衡，并证明早期退出技术可以显著减少深度神经网络的推断速度，同时保持分类准确性。
PDFa year ago
场景文本识别的上下文感知并行解码器
场景文本识别方法一直在追求高准确率和快速推断速度。本文通过经验研究发现，自回归解码在提供视觉上下文感知方面比语言建模更有效。因此，提出了上下文感知并行解码器（CPPD），它在单次解码中构建了一个稳健的上下文，使得其准确率和推断速度较传统方法
PDFa year ago
交通中轨迹预测的快速无地图模型
该研究提出了一种高效的轨迹预测模型，不依赖于交通地图，通过在两个阶段中综合应用注意机制、LSTM、图卷积网络和时间变换器等技术，编码了单一代理的时空信息，并探索了多个代理之间的时空交互信息，实现了比现有无地图方法更高的性能，并超过了 Arg
PDFa year ago
KDD适应性记号长度的视觉变换器：将长图像变短
通过 Resizable-ViT 模型和 Token-Length Assigner 方法，在保证准确性的前提下，为每个图像分配最小的适当的 token 长度，从而加快 ViT 模型的推理速度，从而显着降低计算成本。
PDFa year ago
基于骨架的动作识别的高性能推断图卷积网络
介绍了通过重参数化和超参数化技术，分别提出了两种新的高性能推理图卷积网络 HPI-GCN-RP 和 HPI-GCN-OP，其中 HPI-GCN-OP 在维持相同准确率的情况下，比 HD-GCN 快 4.5 倍，同时在两个基于骨架的动作识别数
PDFa year ago
DETR 在实时目标检测中击败了 YOLO
本文提出了第一款实时端到端物体检测器 ——Real-Time DEtection TRansformer（RT-DETR），支持灵活调整推理速度且在速度和准确度上均优于同一规模的 YOLO 检测器以及 DINO-Deformable-DET
PDFa year ago
实用 Conformer：优化 Conformer 的大小，速度和 FLOPs，用于设备和云 ASR
本文提出了一种优化的 conformer 模型，通过替换低层 conformer 块、策略性缩小架构和利用 RNNAttention-Performer 等方式，优化内部状态数量，降低推理延迟。通过级联编码器，我们发现这些优化可以将延迟降低
PDFa year ago
UKP-SQuARE v3: 一个多智能体问答研究平台
研究了多领域 Question Answering 模型，发现除了采用多数据集模型外，组合专家智能体力也可得到较大性能提升，为了便于研究者进行多代理模型的研究，将 UKP-SQuARE 平台扩展支持三种多代理系统，包括代理选择，早期融合和延
PDFa year ago
AUTODIAL：高效异步任务导向对话模型
AUTODIAL 是一种多任务对话模型，通过使用平行解码器来预测对话行为、领域、意图和状态，较之 SimpleTOD 等生成式方法，使用分类式解码器可大幅度减少内存占用并提高推理速度，在三种对话任务上拥有 11 倍少的参数以及 3-6 倍的
PDFa year ago
EMNLP候选汤：将候选结果融合以提升非自回归翻译的翻译质量
本研究通过引入 “Candidate Soups” 方法，利用模型不稳定性充分使用不同候选翻译的有价值信息，从而在保持 NAT 模型的推理速度的同时，实现高质量翻译，实验证明该方法能够显著改善各种基础模型的翻译质量，而其最佳变体更取得了 7
PDFa year ago
All-in-One: 面向边缘设备的高度代表性 DNN 剪枝框架，具备动态电源管理功能
在边缘设备中部署深度神经网络时，我们提出了一种全新的剪枝框架，名为 All-in-One，以应对动态功率管理带来的不稳定的推理速度性能，通过重新配置具有各种修剪比例的模型，以适应特定的执行频率和电压，使推理速度保持尽可能稳定。
PDF2 years ago
动量解码：以图探索为基础的开放式文本生成
本文提出一种新的解码方法 —— 动量解码，将生成开放式文本视为有向图中的探索过程，同时鼓励语言模型在当前图之外贪心地探索新节点，并允许其通过预定义的抵抗函数降低动量回到现有节点，本方法在三个基准测试中表现出与现有技术相当的性能，且具有明显提
PDF2 years ago
混合专家混合精度神经网络的调优
通过添加新的数据类型到 Caffe，增加了现有商品电子设备上深度学习推断速度，在某些设备上，内存使用量可以降低到 3.29 倍，推断速度可以提高到 3.01 倍，并提出了一种混合专家模型的变化来增加图像分类中的推断速度。
PDF2 years ago
SAMP：自适应混合精度模型推理工具包
本文提出了一种自适应混合精度 (SAMP) 工具包来控制量化率，以平衡效率和性能，可以轻松量化模型进行推理。实验结果表明，SAMP 工具包的加速比优于 PyTorch 和 FasterTransformer，同时保证所需性能。此外，SAMP
PDF2 years ago
基于 CTC 的音频语音识别中基于音素掩码的非自回归误差修正
该研究提出了一种基于 CTC 和 PC-MLM 的自动语音识别方法，该方法综合考虑了速度和准确率，并在实验评估中表现出更高的性能。
PDF2 years ago
COLINGOneEE：一种快速重叠和嵌套事件提取的一阶段框架
OneEE 是一种简单而有效的标注方案和模型，将事件提取作为词词关系识别来表述，它在同时识别触发词或参数词之间的关系方面表现出色，具有很快的事件提取速度，并在 FewFC、Genia11 和 Genia13 三个基准测试上取得了最先进的结果
PDF2 years ago
基于操作预测的 ASR 误差纠正方法
本文提出了一种利用纠错操作预测的 ASR 错误校正方法，该方法可降低解码过程的延迟，提高推理速度并维持相同水平的准确性。
PDF2 years ago
ICLRDBQ-SSD: 动态球查询用于高效的三维物体检测
该研究提出一种自适应选择输入点子集并分配合适的感受野的网络以显著减少计算成本，应用于一些最先进的 3D 探测器中，并在 KITTI，Waymo 和 ONCE 数据集上将推理速度提高了 30％-100％。
PDF2 years ago
EASNet: 搜索弹性和精确的立体匹配网络结构
提出了一种适用于不同计算环境下实现不同 3D 架构的弹性和准确的立体匹配网络 (EASNet)，并在 Scene Flow 和 MPI Sintel 数据集上证明其优于当前最先进的面向任务过程的 SOTA 架构。
PDF2 years ago