Jun, 2024

标签循环:转录器的高效解码

TL;DR该论文介绍了一种高效的贪婪解码算法,用于转导推断,通过使用 CUDA 张量表示批量中的部分假设来支持并行化的假设操作,在解码过程中,我们的算法通过采用嵌套循环设计最大化 GPU 并行性,其中内循环处理所有空白预测,而非空白预测在外循环中处理,实验证明,在使用批量大小为 32 时,标签循环算法相较于传统的批量解码算法可以加速多达 2.0 倍,可以与其他编译器或 GPU 调用相关技术结合以获得更多加速,我们将开源我们的实现以造福研究社区。