使用LMBR后验概率加速NMT批次化波束搜索解码的部署

Apr, 2018

使用LMBR后验概率加速NMT批次化波束搜索解码的部署

Accelerating NMT Batched Beam Decoding with LMBR Posteriors for Deployment

Gonzalo Iglesias, William Tambellini, Adrià De Gispert, Eva Hasler, Bill Byrne

TL;DR描述了一种基于批处理的光束解码算法，结合使用LMBR技术和n-gram后验概率来进行NMT训练，结果表明在Transformers最佳结果的基础上仍然能够获得进步。同时讨论了加速部署策略以及光束大小和批处理对速度和内存的影响。

Abstract

We describe a batched beam decoding algorithm for nmt with LMBR n-gram posteriors, showing that lmbr techniques still yield gains on top o

发现论文，激发创造

神经机器翻译的束搜索策略

本文提出了通过改进灵活的 beam-search decoder 来加速神经机器翻译的方法，并测试表明，该方法可以提高速度，同时不影响翻译质量。

Feb, 2017

神经机器翻译中基于动态波束分配的快速词汇约束解码

该论文旨在介绍一种新的机器翻译解码算法——词汇约束解码法，该算法能够快速而准确地在输出中包含预定的单词和短语，并探索模型与BLEU得分之间的关系，与此同时它还能够极大地优化计算复杂性。

Apr, 2018

高效批次束搜索流式处理方法

通过 GPU 架构上的可变长度解码，我们提出了一个高效的批处理策略。相比固定宽度梁搜索和变宽度梁搜索，我们的方法降低了运行时长，同时匹配基准的 BLEU。此外，实验证明我们的方法可以加速其他领域的解码，如语义和句法分析。

Oct, 2020

控制耐心的束搜索解码

在文本生成中使用 Beam Search，引入了 Patience Factor 可以提高强预训练模型在新闻文本摘要和机器翻译中的解码效果，并且只需修改一行代码即可。

Apr, 2022

通过置信度放宽增强ASR解码

该论文提出了一种解码过程，改进了现有的基于beam search的自动语音识别系统中的缺陷，特别是针对最近提出的自监督学习（SSL）模型中高度自信的预测所带来的问题，并且不需要额外的训练以及模型参数，并且在低资源场景中实现了一致的改进。

Dec, 2022

加速 LLM 推断的分阶段推测解码

利用大型语言模型（LLM）的最新进展，我们提出了一种新颖的算法——分阶段投机性解码，以加速小批量、设备上的LLM推断。我们通过改进投机性解码的前期工作解决了小批量推断的低算术密度问题。首先，我们将投机性批量重新组织为一棵树，这降低了生成成本并增加了每批预期的标记数。其次，我们添加了第二阶段的投机性解码。综合而言，我们在完美地保留输出质量的同时，将单批解码延迟降低了3.16倍，使用了一个762M参数的GPT-2-L模型。

Aug, 2023

依约束的自回归生成：带有覆盖保证的束搜索

通过引入根据符合性预测的束搜索算法的两个新扩展，我们可以生成带有理论覆盖保证的序列集合。首个方法非常简单且建议动态大小的束搜索结果子集，但与典型的符合性预测过程不同，其可行保证取决于事后校准测量。我们的第二个算法将符合性集预测过程引入解码过程，产生一个适应当前不确定性的可变束宽度。尽管更加复杂，该程序可以实现预先选择的覆盖保证。我们为每种方法提供了边际覆盖保证，并在绘制自然语言处理和化学方面的多个任务的选择中对其进行了实证评估。

Sep, 2023

利用前瞻解码打破LLM推断的顺序依赖性

使用准确并行的预读解码算法加速大型语言模型的自回归解码，从而减少总解码步骤，提高解码速度并充分发挥现代加速器的并行处理能力。

Feb, 2024

硬件感知并行提示解码用于LLM推理的内存高效加速

提出一种新颖的并行提示解码方法，仅需$0.0002$%的可训练参数，在16小时内可在单个A100-40GB GPU上进行高效训练，大大提高多令牌生成的接受率以及未来时间步骤的输出生成速度。

May, 2024

动态宽度推测性束解码用于高效大型语言模型推理

本文探讨了大型语言模型推理过程中低效性的问题，提出了一种新的动态宽度推测性束解码（DSBD）方法，以应对推测解码与束采样融合中的诸多挑战。该方法通过优化束的数量和改进验证机制，提高了推理速度并保证了输出质量，具有重要的潜在应用价值。

Sep, 2024