inference speed | BriefGPT - AI 论文速递

关键词inference speed

搜索结果 - 107

利用次路线线性近似模型加速图像生成
SLAM 通过利用 Sub-path Linear Approximation Model (SLAM) 方法加速扩散模型，从而实现高质量图像生成，克服了现实场景中推理速度缓慢的问题，提供了一种新的加速方法。
PDF2 months ago
SKIP: 提高推理速度的技能本地化提示调优
提出一种名为 SKIll-localized Prompt tuning (SKIP) 的新方法，能够显著地提高推断效率，同时减少参数数量，适用于各种基于 transformer 的架构。
PDF3 months ago
CVPRLD-Pruner：使用任务无关见解高效修剪潜在扩散模型
通过利用潜在空间进行剪枝过程，LD-Pruner 方法旨在提供用于压缩 LDMs 的有效性评估模型性能的方法，从而减少训练的高计算成本和提高推理速度。
PDF3 months ago
CVPRTCCT-Net: 通过行为特征信号进行快速高效的参与度估计的双流网络架构
为了解决在设备实时使用时由于复杂架构、大量输入数据、计算能力和推理时间等限制，将嵌入系统的挑战，本研究提出了一种新颖的两流特征融合 “张量卷积和卷积变换网络” (TCCT-Net) 架构。该架构在 EngageNet 数据集上得到了验证，相
PDF3 months ago
走向快速推理：探索与改进分块并行草稿
通过分析和改进块并行解码草稿，提高语言模型的推理速度和验证前缀长度。
PDF3 months ago
在有限区间内应用引导改善扩散模型的样本和分布质量
通过限制特定范围的噪声水平，改进了图像生成扩散模型中的引导技术，从而在各个参数、网络结构和数据集上显著提高推理速度和结果质量，建议将引导间隔作为扩散模型的超参数暴露出来。
PDF3 months ago
大型语言模型的无损加速通过自适应 N-gram 并行解码
通过引入自适应 N-gram 并行解码（ANPD），我们提出了一种创新的无损方法，可以在保持性能的同时加速推理。ANPD 采用两阶段方法，通过一种快速草稿阶段和验证阶段，使生成多个标记成为可能，从而提高处理速度并减少推理延迟。ANPD 消除
PDF3 months ago
UniFL：通过统一反馈学习改善稳定扩散
UniFL 是一个统一框架，利用反馈学习全面增强扩散模型，在提升生成模型质量和加速推理方面表现出优越性能。
PDF3 months ago
不是所有的注意力都有必要：针对多模态大型语言模型的参数和计算效率高的迁移学习
本文提出了一种针对多模态大型语言模型（MLLMs）的参数和计算效率高的新调优方法，称为 Efficient Attention Skipping (EAS)。通过评估注意力冗余并跳过不重要的多头注意力机制（MHAs）来加快推理速度，同时通过
PDF3 months ago
Fast-Poly: 三维多目标跟踪的快速多面体框架
提出了一种名为 Fast-Poly 的基于滤波器的快速、有效的 3D 多物体跟踪方法，该方法通过解决 3D 空间中物体旋转各向异性、增强本地计算密集化和利用并行化技术，提高了推断速度和精度，在两个大规模跟踪基准测试中获得新的性能最佳值，并且
PDF3 months ago
一步图像翻译与文本到图像模型
通过对抗学习目标，将单步扩散模型通过整合各种模块成为单一的端到端生成网络，以提高其保留输入图像结构并减少过拟合的能力，我们的模型在非配对设置下优于现有的基于 GAN 和扩散的方法，实现了各种场景转换任务，如昼夜转换和添加 / 删除雾、雪和雨
PDF4 months ago
图像恢复的高效扩散模型：残差位移
通过建立马尔可夫链以提高高质量图像和低质量图像之间转换的效率，并通过精心设计的噪声方案灵活控制扩散过程中的转移速度和噪声强度，本研究提出了一种新的高效扩散模型用于图像恢复，表现优越或可媲美现有的方法，甚至只需进行四步采样。
PDF4 months ago
一种双重自蒸馏的无教师图知识蒸馏框架
无需师生模型或图神经网络，纯基于多层感知器的图自蒸馏 (TGS) 框架在训练中利用结构信息进行自知识蒸馏，从而在推理中无数据依赖，显著提高了多层感知器的性能，并在六个真实数据集上超过最先进的图知识蒸馏算法。此外，TGS 的推理速度比现有 G
PDF4 months ago
MMFlowPrecision: 使用线性量化提升基于 FPGA 的实时流体流动估计
本研究应用线性量化于基于 FPGA 的软传感器以实现精确的流体流量估计，通过克服传统定点量化的局限性，显著提高神经网络模型的精确度。通过针对硬件的优化，我们的方法在平均平方误差上实现 10.10% 的降低，并在推理速度上有 9.39% 的显
PDF4 months ago
学习压缩自然语言格式中的提示
通过将较长的提示转换为自然语言格式的胶囊式提示，利用奖励函数和长度约束来优化 Nano-Capsulator 框架，该框架可以在保持提示效用和可迁移性的同时，减少 81.4％的长度、提高推理速度 4.5 倍，并降低 80.1％的预算开销。
PDF4 months ago
大型语言模型的量化策略的全面评估
对大型语言模型的量化技术进行研究，发现 4 位量化的语言模型可以在大部分基准测试中保持与非量化模型相当的性能，并且困惑度可以作为量化语言模型的代理度量。然而，量化也会影响推断速度，因此在优化解码速度和内存消耗方面需要进行大量工程努力和硬件支
PDF4 months ago
生成遇见验证：智能并行自动校正解码加速大型语言模型推理
本研究旨在加快具有数十亿参数的大型语言模型的推理速度。我们提出了一个名为 SPACE（Smart Parallel Auto-Correct decoding）的创新方法，用于实现 LLMs 的无损加速。通过集成半自回归推理和猜测解码功能，
PDF4 months ago
可控扩散语言模型的量化嵌入向量
通过量化任务特定的嵌入空间，提出了一种名为 QE-CDLM 的新方法，以增强生成任务的可控性和稳定性，实现更好的收敛性和轻量级微调。在五项具有挑战性的细粒度控制任务上的实验结果表明，QE-CDLM 在质量和可行性方面优于现有方法，实现了更好
PDF5 months ago
PaDeLLM-NER：大型语言模型中的并行解码用于命名实体识别
该研究旨在通过大型语言模型（LLM）减少命名实体识别（NER）的生成延迟。通过并行解码技术，该方法在不需要额外模块或架构修改的情况下实现了对 NER 中所有提及的同时解码，从而提高了推理速度，同时保持了与最先进方法相当的预测质量。
PDF5 months ago
利用链式抽象推理进行高效工具使用
大型语言模型需要通过链接现实世界的知识来实现与人类期望一致的准确推理。我们提出了一种新的方法，使用抽象链条进行计划，从而使语言模型能够更好地利用工具进行多步推理，并取得更高效的工具使用和更快的推理速度。
PDF5 months ago