inference time | BriefGPT - AI 论文速递

关键词inference time

搜索结果 - 65

ABC: 有界记忆力控制的注意力
研究报告探讨了如何提高 Transformer 结构在处理长序列任务时的效率问题，提出了一种称为带有有限存储控制的注意力机制的抽象方法，并实现了学习性的上下文记忆优化，实验证明其可显著提高长序列任务的处理效率。
PDF3 years ago
IJCAI深度脉冲神经网络中快速且准确的 ANN-SNN 转换
本文分析了 ANN-SNN 转换的理论，并提出了使用速率规范层替换源 ANN 训练中的 ReLU 激活函数以实现直接转换的方法。我们还提出了一种最优拟合曲线来量化源 ANN 的激活值与目标 SNN 实际发射率之间的匹配度，并通过优化上述拟合
PDF3 years ago
CVPR基于 Transformer 的端到端人 - 物交互检测
本文提出了一种基于 transformer 的编码器解码器框架，直接从图像中预测一组 <人，对象，交互> 三元组，通过此预测方法，我们的算法在不需要耗时的后处理的前提下，有效地利用图像中的固有语义关系，并实现了在对象检测后不到 1ms 的推
PDF3 years ago
使用模式依赖性学习改进文本到 SQL 的转换
本篇论文提出了一种基于 Schema Dependency 的多任务 Text-to-SQL 模型（SDSQL），用于有效捕获问题和架构之间的交互，从而减少数据库执行所拖延的推理时间，具有更好的可扩展性和更高的性能。
PDF3 years ago
DeRF: 分解辐射场
本文介绍一种基于空间分解的神经辐射场渲染技术，实验表明该技术在保证渲染质量的同时，提供了比 Neural Radiance Fields 更高效的推理速度，可 GPU 友好地进行渲染。
PDF4 years ago
通过组件组合实现一键式神经架构搜索，寻找更快的 Transformers
本文利用基于采样的一次性架构搜索方法，对 Transformer 架构进行了分解，通过搜索以使模型具有更高的效率，同时保证模型的速度和性能。在应用 BERT-base 的架构中，我们成功地减少了 10%-30% 的速度，同时能够使先前的最先
PDF4 years ago
ICLRDegree-Quant: 图神经网络的量化感知训练
本文介绍了一种利用低精度整数算法进行推理的方法，即基于度量化的量化图神经网络，并通过对六个数据集的验证表明，与以往的方法不同，该方法使模型可以推广到未见过的图像，与 FP32 模型相比，在大多数情况下性能相当，在 INT4 模型中我们获得了
PDF4 years ago
MM卫星影像快速超分辨率的深度与非深度方法融合
该论文提出通过超分辨率提高卫星图像的质量并降低成本。作者设计了一种框架以分析每个低分辨率图像补丁的区域信息内容，并明智地选择在图像上超分辨率更富有结构的区域上使用更复杂的深层模型，而在非显著区域上使用不使用深层模型的低资源密集型方法，从而在
PDF4 years ago
ELF：长尾分类的早退出框架
提出一种早期退出框架（ELF）来应对长尾数据分布的问题，通过附加的支路来学习早期退出容易的样例，以提高模型精度并缩短推理时间。
PDF4 years ago
自动学习紧凑的质量感知代理，用于优化问题
通过将优化问题表示为元变量的线性组合，我们学习了大规模优化问题的低维代理模型。通过端到端地训练低维代理模型和预测模型，我们实现了训练和推断时间的大幅减少，同时通过关注优化中的重要变量和在更平滑的空间中学习来提高性能。
PDF4 years ago
在边缘设备上优化分组卷积
本文提出了一种名为 GSPC 的新型深度神经网络 grouped convolutions 的实现方式，在边缘设备上实现了最先进的性能，而且在多种不同类型的 grouped convolutions 中表现良好，平均提高了 TVM、PyTo
PDF4 years ago
神经网络为什么需要增加早期退出机制？
本研究介绍了一种多输出深度神经网络，它具有提高推理速度、减少过拟合以及利用多层次计算平台的优势，并描述了在 5G 和雾计算环境中的应用场景以及相关的开放式研究问题。
PDF4 years ago
ACL利用 Levenshtein 变换的受词汇约束的神经机器翻译
本文提出了一种在神经机器翻译中加入词汇约束的简单有效算法，该算法可以在推理时注入术语约束，而不影响解码速度，并且无需修改训练流程，使用自定义字典即可运行，实验结果表明，我们的方法在英德 WMT 数据集上可以提高基线和之前方法的翻译质量。
PDF4 years ago
TwinBERT: 双向结构 BERT 模型的知识蒸馏以实现高效检索
TwinBERT 模型可用于低延时 IR 系统中进行有效且高效的召回，通过将查询和文档的嵌入交叉组合来生成相似性分数，并且可以预先计算文档嵌入并将其缓存在内存中，从而显着提高了处理效率。
PDF4 years ago
ICMLPoWER-BERT: 通过逐步词向量消除加速 BERT 推理
本文介绍了一种名为 PoWER-BERT 的新方法，通过利用单词向量中的冗余信息并据此确定要消除的向量，以及通过自我关注机制确定各向量的重要性，以达到缩短 BERT 模型推理时间却不丧失准确度的目的。在标准 GLUE 基准测试中，PoWER
PDF4 years ago
AAAISM-NAS: 结构到模块化神经架构搜索用于目标检测
本篇论文提出了一种名为 SM-NAS 的两阶段粗到细搜索策略，用于搜索既具有高效的模块组合也具有更好的模块级架构的 GPU 友好设计，优于现有的目标检测系统，为多种检测数据集提供更快的推理时间和更高的准确性。
PDF5 years ago
序列模型的快速结构化解码
非自回归序列模型为了减少推理时间，通常会假定每个单词的生成过程彼此独立，但这会导致结果不一致。本文提出了一种结构化推理模块，使用高效的 CRF 近似算法来建模动态转换技术，以提高翻译的一致性，并在不影响推理速度的前提下，显著提高了翻译性能。
PDF5 years ago
ICCVHarDNet：一种低存储交通量的网络
本文研究了神经网络在高分辨率任务（如实时目标检测和语义分割）中的推理时间和内存访问流量之间的关系，提出了一个新的神经网络 ——Harmonic Densely Connected Network，在保证低 MACs 和低内存访问流量的前提下
PDF5 years ago
PuVAE：一个变分自编码器用于净化对抗样本
本文提出了 Purifying Variational Autoencoder（PuVAE）这一方法来净化对抗样本，并在实验中展示该方法对各种攻击方法的鲁棒性展现了较高的性能，其推理时间大约比 Defense-GAN 这一当前最先进的净化模
PDF5 years ago
ECCVDPP-Net: 设备感知渐进式搜索 Pareto - 最优神经网络架构
提出了一种名为 DPP-Net 的优化神经体系结构架构的方法，能够同时考虑设备相关和设备不相关目标，通过实验结果证明其在各种不同设备上比其他相似方法更有效。
PDF6 years ago