inference cost | BriefGPT - AI 论文速递

关键词inference cost

搜索结果 - 19

记忆 ³：带显式记忆的语言建模
利用显式记忆将大型语言模型（LLMs）的训练和推理成本降低，实现更小的参数大小、训练成本和推理成本，从而传递意义的计算。
PDF5 days ago
部署长上下文变压器的挑战：理论峰值性能分析
为了降低长上下文 Transformer 模型的成本并解决效率挑战，本研究提出了一种并行编程框架，用于定量分析在 GPU 高带宽内存限制下为多个长上下文请求提供服务时所面临的效率挑战，并识别出减少 1M 上下文推断成本的可能方向。
PDF2 months ago
MultiBooth: 面向图像中全部文本概念生成
介绍了一种名为 MultiBooth 的新颖高效的图像生成技术，该技术可在文本中进行多概念定制生成；通过将多概念生成过程分为单概念学习阶段和多概念整合阶段，利用多模态图像编码和高效的概念编码技术提高了概念准确性并降低了推断成本。
PDF2 months ago
计算病理学中的结构模型修剪以提高推理效率
采用模型剪枝技术在生物医学成像中有效减少推理成本，至少能压缩 70% 的模型大小而性能几乎不下降。
PDF3 months ago
叠加提示：改善和加速检索增强生成
我们提出了一种新颖的 RAG 提示方法，即超级叠加提示，可以直接应用于预训练的基于 transformer 的大语言模型，无需进行精调，以解决大语言模型在处理长上下文时的推理成本呈二次比例增长、输出质量受无关上下文干扰的问题。我们的方法可以
PDF3 months ago
CVPRPikeLPN: 低精度神经网络的潜在效率问题缓解
低精度量化在神经网络优化中得到广泛应用，非量化的逐元素操作主导了低精度模型的推理成本，本文提出了 ACEv2 以更好地衡量量化模型的推理成本和能耗，并介绍了一种名为 QuantNorm 的批归一化层的新型量化技术，以及应用双量化解决量化缩放
PDF3 months ago
AttentionStore：大型语言模型服务中多轮会话中的经济高效注意力重用
通过 AttentionStore，可以显著降低多轮对话中重复计算的开销，提高首个令牌的时间及预填充处理性能，减少端到端推理成本。
PDF3 months ago
AI 部署开销：瓦特数何以驱动成本？
建立在生成式、多用途 AI 系统基础上的商业 AI 产品近年来越来越受欢迎，然而，由于这些系统所需的能源和排放的碳量的增加，这种 “通用性” 的雄心勃勃使环境付出了巨大代价。在这项工作中，我们首次对各类机器学习系统的持续推理成本进行了系统比
PDF7 months ago
循环线性变换
通过引入循环替代方案以解决 transformer 自注意机制中的两个局限，本文提出了一种能够以较低成本进行推理并有效利用长程依赖的 transformer 自注意机制替代方法，在强化学习问题中实现了性能的提升。
PDF8 months ago
多模导向网络用于缺失模态推断
提出了一种通过引导网络在训练阶段促进知识共享，利用多模式表示训练用于推理的更好的单模式模型，以解决存在缺失模式的多模态模型应用受限和过高计算成本的问题。通过真实生活中的暴力检测实验证明，所提出的框架训练的单模式模型明显优于传统训练的模型，并
PDF10 months ago
快速前馈网络
我们介绍了快速前馈（FFF）架构，它打破了层大小与推理成本之间的线性关系，通过引入对数时间的前馈网络的替代方案。我们展示了 FFF 在推理成本的指数分数上表现出与前馈网络相当的性能，与专家混合网络相比更快地提供性能，并且可以在 transf
PDF10 months ago
贝叶斯风险转导器：具有可控对齐预测的转导器
基于转录器的自动语音识别（ASR）被广泛使用。本研究提出了 Bayes 风险转录器（BRT），通过使用 Bayes 风险函数将较低风险值设置给优选路径，实现可控的对齐预测，从而提供了逾传统转录器更有实用优势的预测对齐方案，实验结果表明 BR
PDFa year ago
动态令牌传递变换器用于语义分割
通过引入动态令牌过渡视觉转换器（DoViT）对图像进行语义分割，适应性地降低了不同复杂度图像的推理成本，通过逐渐停止部分易处理的令牌的自注意计算并保持难处理的令牌继续前进直到满足停止标准，利用轻量级辅助头部做出令牌传递决策并将令牌划分为保留
PDFa year ago
复杂任务的基石：领域转移下放射学报告的鲁棒性生成事件抽取
本文介绍了一种从放射学报告中提取信息以降低标注数据需求的方法，并比较了基于 BERT 的任务特定分类层和基于 T5 的多通道文本生成模型在应用领域中的泛化能力。另外，该文提出了创新的模型推理技术，将复杂任务分解为更小的子任务块，通过多任务联
PDFa year ago
无梯度和演示的大型语言模型交互式任务的提示优化
研究提出了 LLM-PO，一种新方法，可以使 LLMs 在没有梯度访问或广泛演示的情况下解决交互式任务。该方法通过维护基于文本的计划并要求 LLMs 根据其采集的经验反思当前计划的优缺点，并根据 LLMs 的反馈来更新计划和收集更多的经验，
PDFa year ago
FrugalGPT：如何在降低成本和提高性能的同时使用大型语言模型
该研究分析了使用大型语言模型的成本，并提出了三种降低推理成本的策略，包括提示适应，LLM 近似和 LLM 级联。基于这些策略，我们提出了 FrugalGPT，它可以使用不同的组合来降低成本并提高准确性。
PDFa year ago
Delta Keyword Transformer: 通过动态裁剪的多头自注意力将 Transformer 移植到边缘
该研究提出了一种动态剪枝方法，通过利用数据在不同时间点的稳定性来降低推理成本，减少了 Transformer 网络中 self-attention 操作的次数，从而在维持高准确率的同时大幅度降低了模型复杂度。
PDF2 years ago
KDDTransformer 模型的学习型 Token 裁剪
本文提出了一种新的学习 Token 修剪 (LTP) 方法，旨在优化 transformer 模型输入序列的推理成本，通过对注意力得分低于阈值的无关 Token 进行逐层自适应性的修剪，从而获得 2.5% 的性能提升和 FLOPs 降低，进
PDF3 years ago
利用冗余特征剪枝构建高效 ConvNets
该论文提出了一种通过消除冗余特征（或滤波器）来修剪深度和 / 或宽度卷积神经网络模型的高效技术，其依据特征空间中的相对余弦距离区分它们和它们的连接特征映射并优化精度和推理性能，但优化后的算法能将 VGG-16 的推理成本降低 40％、Res
PDF6 years ago