context lengths | BriefGPT - AI 论文速递

关键词context lengths

搜索结果 - 5

360 智脑技术报告
使用 3.4T 的标记数据进行预训练，通过数据清洗和组合策略，将 360Zhinao-7B 模型的上下文窗口扩展至 32K 和 360K，实现了与类似规模模型的竞争性表现。
PDFa month ago
精简注意力：面向 Transformer 解码阶段的硬件感知可扩展注意力机制
LeanAttention 是一种可扩展的自注意力计算技术，通过重新设计解码阶段的执行流程，将自注意力机制的实现扩展到具有挑战性的长上下文长度情况，以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
PDF2 months ago
LV-Eval: 5 个长度级别高达 256K 的平衡长上下文基准测试
该论文介绍了 LV-Eval，一个具有不同上下文长度的具有挑战性的长上下文测试基准，包含单跳问答和多跳问答两个主要任务，通过混淆事实插入、关键词和短语替换以及基于关键词回忆的度量设计等三种关键技术，解决了主流基准测试中的不足之处，并评估了
PDF5 months ago
探究语言模型在序列判别式训练神经转录器中的影响
该研究探讨了不同上下文长度和标签单位（音素与词）在基于音素的神经传递器的序列鉴别式训练中，语言模型（LMs）的影响。研究结果表明，使用词级别的 LM 在训练中优于音素级别的 LM，并且概率计算所使用的 LM 的上下文大小对性能有限影响，同时
PDF9 months ago
通过随机填充实现位置嵌入的令人沮丧的简单改进
本文提出了一种简单而有效的策略 Random Padding 来平衡位置嵌入的更新次数，从而在提取式问答的模型性能上获得显著提升。在训练模型对长文本进行评估时，特别是当模型在短文本上进行训练时，Random Padding 会表现得更加优异
PDFa year ago