- SpecExec: 消费设备上基于大规模并行推测解码的交互式 LLM 推理
使用 SpecExec 方法,在消费级 GPU 上以每秒 4-6 个令牌(4 位量化)或每秒 2-3 个令牌(16 位权重)的速度对包含 50 多亿参数的大语言模型进行了推理。
- 克洛弗:基于连续知识的逐渐式轻量级猜测解码
Clover 是一种新的推理解码算法,将顺序知识融入并行解码过程中,提高了预测准确率和整体效率。实验证明,Clover 在 Baichuan-Small 和 Baichuan-Large 上分别比基准结果提高了最多 91% 和 146%,与 - 通过隐藏传输进行并行解码以实现无损大型语言模型加速
大型语言模型的并行解码技术,包括隐藏状态传递、树状注意机制和加速技术等,提高了模型推理速度和生成准确性。
- 一次编码,多次并行解码:高效 Transformer 解码
基于 Transformer 的 NLP 模型在计算成本上限制了其应用场景。我们引入了一种新的编码器 - 解码器模型配置(PiD),通过一次编码和并行解码输出来提高结构化输出和问答任务的效率,避免了重复的输入编码以及减小解码器的内存占用,从 - CVPR掩蔽自动编解码器是一种有效的多任务视觉通才
通过引入双向注意力机制、并行解码框架和掩码序列建模方法,设计了一种名为 MAD 的多任务视觉通用模型,用于统一各种视觉任务,实验证明 MAD 在性能和推理效率方面优于自回归模型,并在与任务专用模型相比获得竞争力的准确性。
- CVPR非自回归序列到序列视觉语言模型
通过多路推断并使用 Query-CTC 损失函数训练的并行解码序列到序列视觉 - 语言模型(NARVL),不再限制为条件分布,能够建模多个推断路径的联合分布,从而在推断时减少了线性复杂度与顺序生成的常态联合推断模式相比达到了与最先进自回归模 - ProPD: 动态令牌树剪枝和生成用于 LLM 并行解码
提出了一种基于动态标记树修剪和生成的高效的大型语言模型(LLM)并行解码框架 ProPD,它通过提高并行性和效率来改进解码的性能和上下文关系维护问题,并在各种批量大小、序列长度和任务等方面最大化整体效率。在各种数据集、LLM 和批量大小上验 - PaDeLLM-NER:大型语言模型中的并行解码用于命名实体识别
该研究旨在通过大型语言模型(LLM)减少命名实体识别(NER)的生成延迟。通过并行解码技术,该方法在不需要额外模块或架构修改的情况下实现了对 NER 中所有提及的同时解码,从而提高了推理速度,同时保持了与最先进方法相当的预测质量。
- Medusa: 多解码头简单的 LLM 推理加速框架
在这篇论文中,我们介绍了一种名为 Medusa 的方法,通过增加额外的解码头来预测并行的多个后续标记,从而提高 LLM 推理的效率,并减少所需的解码步骤。通过两个级别的精细调整程序,Medusa 可以满足不同用例的需求。此外,我们还提出了几 - PaSS:并行推测采样
通过使用并行解码,我们提出了一种使用单个模型从多个分词进行生成的方法,无需额外的计算成本或第二个模型,并表现出了令人期待的性能(最多可提高 30% 的速度),只需要最少 O (d_{emb}) 个附加参数。
- 快速的思维链:从并行解码中窥见未来,更快地得出答案
本文提出了 FastCoT,这是一个基于并行解码的模型无关框架,通过使用大小可变的上下文窗口来同时进行并行解码和自回归解码,从而充分利用 GPU 计算资源。通过广泛实验证明,FastCoT 相对于常规方法可以将推理时间缩短近 20%,而性能 - 场景文本识别的上下文感知并行解码器
场景文本识别方法一直在追求高准确率和快速推断速度。本文通过经验研究发现,自回归解码在提供视觉上下文感知方面比语言建模更有效。因此,提出了上下文感知并行解码器(CPPD),它在单次解码中构建了一个稳健的上下文,使得其准确率和推断速度较传统方法 - ACL通过并行解码加速 Transformer 推理以进行翻译
本文提出使用雅可比和高斯 - 塞德尔迭代方法对机器翻译的标准贪心自回归解码进行并行重构,以解决 transformers 对机器翻译的效率问题,实现了速度提高,而翻译质量保持。三种并行解码算法被提出并在不同语言和模型上进行了测试,速度提升最 - 一个基于误差引导的汉语拼写纠错模型
本文提出了一种基于神经网络和 BERT 的错误指导拼音检查模型,支持高度并行化解码,通过引入新的损失函数融合错词集,提高了错词的辨别能力和纠错质量。研究证明,在基准测试上,该模型在纠错质量和计算速度方面均显著优于现有技术。
- 通过基于子句级并行解码和对齐损失以实现更快更好的基于语法的文本到 SQL 解析
本文介绍了一种提高语法解析器的性能的方法,通过采用基于从句的并行解码和对齐丢失来增强两个高性能的语法解析器 RATSQL 和 LGESQL,在准确性和解码速度方面都取得了一致的提升。
- ICCV使用并行解码技术的端到端稠密视频字幕生成
本文提出了一种简单而有效的端到端稠密视频字幕生成框架 PDVC,其中通过在 transformer decoder 的顶部添加事件计数器,将原始视频精确地分割为多个事件片段,并在其基础上进行事件集合预测,从根本上提高了预测字幕的连贯性和可读 - ACL非自回归神经机器翻译的扫视变换器
提出了一种基于 Glancing Language Model 的机器翻译方法,通过单次并行解码,实现了高效率、高质量的机器翻译效果,使得单次非自回归方法的性能优于以往所有方法,并且与 Transformer 相当,缩小了 0.25-0.9 - NIPS深度自回归模型的块并行解码
该论文提出了一种新颖的分块并行解码方案,来提高序列生成的速度,并在机器翻译和图像超分辨率任务上通过实验验证了该方法的有效性。