- Conversational SimulMT: 大型语言模型的高效实时翻译
这篇论文提出了一种基于 LlM 的对话式 SimulMT 框架,通过多轮对话解码提高 LLM 的推理效率,在两个 SimulMT 基准测试中展示了 LLM 在翻译质量上的优越性以及与专用 SimulMT 模型相当的计算延迟。
- 基于锚定的大型语言模型
本研究引入了基于锚点的 LLM (AnLLM) 模型,该模型利用了一种创新的基于锚点的自注意力网络 (AnSAN) 和一种基于锚点的推理策略,将序列信息压缩到锚点令牌中,从而减少键 / 值缓存并提高推理效率。实验证明,AnLLM 在保持可比 - LLaMA 简化: 大型语言模型的简单深度修剪
通过深度剪枝方法,我们展示出其在零样本任务性能方面可以与最近的宽度剪枝方法竞争,并且在内存受限情况下的推理速度提升尤为明显,希望这项工作能够帮助在本地和边缘设备上部署大型语言模型。
- DE$^3$-BERT: 基于原型网络的 BERT 增强距离提前退出
基于全局信息与局部信息的混合策略,我们提出了一个新颖的基于距离增强的 BERT 模型早停策略 (DE^3-BERT),通过利用全局信息来提高预测准确性,从而在模型性能和推理效率之间取得更好的平衡。
- 通过嵌入相似性实现高效的提示缓存
通过提示缓存改善大型语言模型的推理效率,专注于通过嵌入相似性预测单轮问答任务的提示缓存的准确性,并提出了基于蒸馏的方法来优化嵌入,实验结果显示我们的模型在缓存效率上优于之前的嵌入模型。
- BiTA: 大型语言模型的无损加速的双向调整
利用半自回归生成和草案验证的简化流程,提出的双向调整方法(BiTA)可加速大型语言模型(LLMs),使推理效率得到显著提高。
- APT: 自适应剪枝和调整预训练语言模型用于高效训练和推理
通过自适应修剪和调整参数,APT 可以提高语言模型的训练和推理效率,同时保持高性能。
- VIPTR:一种用于快速高效的场景文本识别的可置换视觉特征提取器
本研究提出了一种 VIPTR(VIsion Permutable extractor for fast and efficient scene Text Recognition)方法,它利用具有金字塔结构的视觉语义提取器以及多个自注意层,避 - 自适应引导:无需训练的条件扩散模型加速
该研究综合考察了无分类器引导在文本条件扩散模型中的作用,从推理效率的角度进行了详细研究,并提出了自适应引导(AG)的有效变体,以在保持图像质量的同时减少计算量。研究发现,通过简单的仿射变换可以替代整个神经函数评估,以实现更廉价的推理,从而为 - 基于 RGB-D 数据的工业异常检测双支路重构网络
基于 RGB-D 输入,我们提出了一种轻量级的双分支重建网络 (DBRN),通过学习正常和异常样本之间的决策边界,使用深度图而不是点云输入来消除两种模态之间的对齐要求,并引入了一个重要性评分模块来辅助融合这两种模态的特征,从而在 MVTec - 在 CPU 上的扩散模型的有效量化
通过结合量化感知训练和蒸馏方法,我们提出了一种新的扩散模型量化方法,可以在维持高图像质量的同时,在 CPU 上展示出高效推断能力。
- 在 CPU 上高效 LLM 推断
本论文提出了一种有效的方法,可以更高效地部署大型语言模型,通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时,在 CPU 上加速 LLM 推理,展示了该方法对包括 Llama2、Llama、GPT-NeoX 等流行 - EMNLP提升推理效率:释放参数共享的预训练语言模型的力量
参数共享的预训练语言模型(PLMs)已成为资源受限环境中成功的方法,在不牺牲性能的情况下显著降低了模型存储和内存成本。本文利用神经常微分方程(ODEs)构建了一种简单的技术,提高了参数共享 PLMs 的推理效率,并提出了一种简单的预训练技术 - EMNLP压缩上下文以增强大型语言模型的推理效率
使用选择性上下文方法(Selective Context)可以显著提高大型语言模型(LLMs)的推理效率,减少内存占用和推理时间,并在维持可比较性能的基础上实现对上下文成本的 50%降低,36%的推理内存使用率降低以及 32%的推理时间降低 - 无监督成分句法分析的集成蒸馏
我们研究了无监督的成分句法分析任务,该任务将句子中的单词和短语组织成层次结构,而不使用语言学注释数据。我们观察到现有的无监督解析器捕捉了句法结构的不同方面,可以利用这些方面来提高无监督解析的性能。为此,我们提出了 “树平均” 方法,并进一步 - 增强推荐系统中的跨类别学习:多层嵌入训练
现代的基于 DNN 的推荐系统依赖于对稀疏特征进行训练得到的嵌入。输入的稀疏性使得对于很少出现的类别难以获得高质量的嵌入,因为它们的表示不经常更新。我们通过有效的跨类别学习在训练时演示了一种产生优越嵌入的技术,并从理论上解释了它的出人意料的 - 扩散条件期望模型用于高效稳健的目标语音提取
我们提出了一种名为 Diffusion Conditional Expectation Model(DCEM)的高效生成方法,用于目标语音提取(TSE),它可以处理多个和单个说话者的情况,包括噪声和干净条件,并且我们还引入了 Regener - 时间耐心:嵌入式雷达数据处理的高效自适应深度学习
通过利用流式雷达数据中的时间相关性,本文提出了一种利用早期退出神经网络在嵌入式设备上进行深度学习推理的新技术,以增强处理资源有限的嵌入式平台上数据流的处理效率。这些神经网络在架构的隐藏层之间添加了额外的分类器分支,允许在运行时决策机制认为其 - 移动版 V-MoEs:通过稀疏的专家混合缩小视觉变形器
通过使用稀疏混合专家模型将 Vision Transformers(ViTs)降低规模以适应资源受限的视觉应用,实现了性能和效率之间更好的平衡。
- 面向高效图像识别的低延迟统一动态网络
动态计算已成为提高深度网络推理效率的一种有前途的方法,我们提出了一个名为 “LAUDNet” 的框架,它集成了三个主要的动态范例,以缩短模型的延迟,通过算法设计与调度优化相结合,准确衡量动态操作延迟的潜在预测器指导。我们在多个视觉任务上测试