- PaDeLLM-NER:大型语言模型中的并行解码用于命名实体识别
该研究旨在通过大型语言模型(LLM)减少命名实体识别(NER)的生成延迟。通过并行解码技术,该方法在不需要额外模块或架构修改的情况下实现了对 NER 中所有提及的同时解码,从而提高了推理速度,同时保持了与最先进方法相当的预测质量。
- 利用链式抽象推理进行高效工具使用
大型语言模型需要通过链接现实世界的知识来实现与人类期望一致的准确推理。我们提出了一种新的方法,使用抽象链条进行计划,从而使语言模型能够更好地利用工具进行多步推理,并取得更高效的工具使用和更快的推理速度。
- OWSM v3.1:基于 E-Branchformer 的更好更快的开放式耳语口语模型
利用 E-Branchformer 提高 OWSM v3.1 模型的性能和效率,尤其在推理速度上具有 25% 的提升,并推出具有 1B 规模的最大 E-Branchformer 语音模型。
- 基于文本图的大型语言模型的高效调优和推理
通过将大型语言模型(LLMs)与图神经网络(GNNs)相结合,我们提出了一个参数和内存效率的 FINE-TUNING 方法来处理文本图,该方法通过可调的边结构显著降低了训练复杂性,同时在文本图上获得了最佳模型性能,且训练成本最低。
- 基于一致性模型的歌声转换
CoMoSVC 是使用扩散原理的一种基于一致性模型的歌声转换方法,该方法旨在实现高质量生成和高速采样,尽管其推断速度明显快于最先进的扩散原理系统,并且在主观和客观指标上实现相当或更好的转换性能。
- MobileVLM: 移动设备上快速、可重现和强大的视觉语言助手
我们提出了 MobileVLM,这是一个专为移动设备设计的多模式视觉语言模型(MMVLM)。它集成了各种移动设备定向的架构设计和技术,包括一组从头训练的 1.4B 和 2.7B 参数规模的语言模型,以及使用 CLIP 风格预训练的多模式视觉 - Lookahead: 大型语言模型的推理加速框架,保持生成准确性
该研究论文介绍了一种加速检索和生成过程的通用框架,通过引入多分支策略和基于 Trie 的检索过程,实现了 Retrieval-Augmented Generation 系统的推理速度的显著提升。
- LLM 闪电般的运算:利用有限内存高效推理的大型语言模型
本研究旨在通过使用闪存将模型参数存储在 DRAM 之外,以满足超过 DRAM 容量的大型语言模型(LLMs)的高效运行需求。本文提出了两种主要技术,即通过重新使用已激活的神经元来减少数据传输的 “窗口化” 与利用闪存的顺序数据访问能力来增加 - EMNLPDiffuVST: 用全局历史引导的去噪模型叙述虚构场景
最近图像与视频生成方法的进步,特别是基于人工智能的图像合成,已经导致了大量抽象和多样化的视觉场景的产生。因此,视觉叙事(Visual Storytelling,VST)成为一个更具挑战性的任务,并且在真实世界以外越来越受欢迎。本文提出了一种 - MobileDiffusion:移动设备上的次秒级文本到图像生成
通过在架构和采样技术上进行广泛优化,我们提出了一种高效的 MobileDiffusion 文本到图像扩散模型,它在移动设备上实现了显著的亚秒级图像生成推断速度,创立了新的技术水平。
- SinSR: 单步扩散图像超分辨率
提出了一种名为 SinSR 的简单而有效的方法,通过仅需要一步推断即可生成超分辨率图像,同时利用新的一致性保持损失,以实现比之前最先进方法和教师模型更优的性能和高达 10 倍的推断加速。
- DELIFFAS: 快速化身综合的可变形光场
生成可控且逼真的数字人类化身一直以来都是计算机视觉和图形学中一个重要而又长期存在的问题。最近的方法在逼真度或推理速度方面取得了巨大的进展,但是这两个属性的组合仍然没有解决。为此,我们提出了一种新的方法,称为 DELIFFAS,它将人的外观参 - EMNLPNASH: 一个简单统一的结构剪枝加速编码 - 解码语言模型框架
通过研究解耦编码器和解码器组件的结构修剪方法在编码器 - 解码器模型上的行为,本研究发现解码器层数是推理速度的主要因素,修剪编码器网络得到低稀疏度可以提高生成质量。基于这些发现,提出了一种简单而有效的框架 NASH,可以缩短编码器和解码器网 - 利用时间步调节器实现更准确的扩散模型加速
我们提出了一种时间步齐器方法,用于改善扩散模型的图像生成质量和推理速度,通过在每个去噪步骤中替换原始参数化,将网络调整到准确的时间步骤上,从而提高各种最先进加速方法的性能。
- 用于腿型机器人的全脉冲神经网络
利用脉冲神经网络 (SNN) 成功应用于四肢机器人,通过在多种模拟地形中实现优异的结果,SNN 在推理速度和能耗上具备自然优势,并且它们对于身体感知信号的脉冲形式处理提供了改进的生物相关性,据我们所知,这是首次在四肢机器人中实现 SNN 的 - 双粒度量化:LLM 的高效细粒度量化
该论文介绍了一种称为 Dual Grained Quantization (DGQ) 的新型量化技术,通过将细粒度的 INT4 权重解量化为粗粒度的 INT8 表示,并使用 INT8 内核进行矩阵乘法,来保持卓越性能同时确保快速推理速度。实 - 用一致性蒸馏加速基于扩散的文本到音频生成
这项研究修改最近提出的一致性蒸馏框架,用于训练只需要单个神经网络查询的 TTA 模型,同时通过在音频空间中使用新的损失函数(如 CLAP 得分)对一致性 TTA 模型进行微调,从而在保留扩散模型高生成质量和多样性的同时,将查询次数减少了 4 - 实时语义分割:遥感中的简要调查与比较研究
远程感知影像的实时语义分割是一个具有挑战性的任务,需要在效果和效率之间进行权衡。本论文总结了设计高效深度神经网络的基本压缩方法,并对远程感知影像的实时语义分割的最新发展进行了简要而全面的调查。实验结果表明,现有的大多数高效深度神经网络都具有 - OmniQuant:大型语言模型的全向校准量化
利用 OmniQuant 技术对大型语言模型进行后训练量化,实现了在多种量化设置下的出色性能,同时保持计算效率;在实际设备上能够显著提高推理速度和内存减少。
- 利用早期退出在自动调制分类中进行快速推断
通过应用早期退出方法来加速深度学习模型的推断过程,本文提出了四种早期退出架构和一种自定义的多分支训练算法,研究了模拟调制分类的分类准确性和推断时间之间的权衡,并证明早期退出技术可以显著减少深度神经网络的推断速度,同时保持分类准确性。