BriefGPT.xyz
Ask
alpha
关键词
attention operation
搜索结果 - 3
精简注意力:面向 Transformer 解码阶段的硬件感知可扩展注意力机制
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
PDF
2 months ago
Hydragen:具有共享前缀的高吞吐量 LLM 推理
基于转换器的大型语言模型现已应用于数亿用户。本文提出了 Hydragen,一种有硬件感知的精确关注力实现,它对共享前缀和唯一后缀分别计算注意力。该方法可以提高最多 32 倍的端到端语言模型吞吐量,并能使用非常长的共享上下文。
PDF
5 months ago
AAAI
联合表示的神经机器翻译
本研究提出一种基于联合表示的神经机器翻译模型,通过提出的高效注意力机制对表示进行精细化处理,实现了新的序列到序列建模范式并在多项机器翻译任务中取得了更优结果,同时提出了系统的模型放大方法,成功将模型规模缩小 50%,同时取得更高的翻译品质。
PDF
4 years ago
Prev
Next