sequence lengths | BriefGPT

关键词sequence lengths

搜索结果 - 5

HiP 注意力：带有分层注意力修剪的稀疏次二次注意力
我们提出了一种名为 HiP 的新方法，通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T)，空间复杂度从 O (T^2) 降低到 O (T)，并且能够扩展到数百万个令牌的预训练 LLM 应用中。
PDF22 days ago
SinkLoRA：增强效率与聊天能力的大型长文本语言模型
扩展 Transformer 模型以适应更长的序列长度是一项关键挑战，本文提出了 SinkLoRA 作为应对策略，通过改进工作分配和应用高效的缓存压缩算法来提高模型性能。
PDFa month ago
ICML不同长度，匀速进行：高效语言建模与闪电注意力
我们提出了闪电注意力（Lightning Attention），这是第一个在固定的内存消耗下保持不同序列长度的训练速度恒定的线性注意力实现。
PDFa month ago
Lissard：长且简单的顺序推理数据集
论文介绍了一个基准测试集 Lissard，其中包括七个任务，旨在评估模型处理和生成不同长度序列以及需要重复操作的能力。评估结果显示，无论是开源模型（Mistral-7B 和 Mixtral-8x7B）还是专有模型（GPT-3.5 和 GPT
PDF5 months ago
具有注意力机制的前馈网络可以解决一些长期记忆问题
我们提出了一种适用于前馈神经网络的简化注意力模型，并证明其可解决比这些任务的最佳出版结果更长和更广泛变化的序列长度的综合 “加法” 和 “乘法” 长期记忆问题。
PDF9 years ago