BriefGPT.xyz
Ask
alpha
关键词
context lengths
搜索结果 - 5
360 智脑技术报告
使用 3.4T 的标记数据进行预训练,通过数据清洗和组合策略,将 360Zhinao-7B 模型的上下文窗口扩展至 32K 和 360K,实现了与类似规模模型的竞争性表现。
PDF
a month ago
精简注意力:面向 Transformer 解码阶段的硬件感知可扩展注意力机制
LeanAttention 是一种可扩展的自注意力计算技术,通过重新设计解码阶段的执行流程,将自注意力机制的实现扩展到具有挑战性的长上下文长度情况,以并行计算的方式提供 2.6 倍的平均注意力执行加速和最多 8.33 倍的速度提升。
PDF
2 months ago
LV-Eval: 5 个长度级别高达 256K 的平衡长上下文基准测试
该论文介绍了 LV-Eval,一个具有不同上下文长度的具有挑战性的长上下文测试基准,包含单跳问答和多跳问答两个主要任务,通过混淆事实插入、关键词和短语替换以及基于关键词回忆的度量设计等三种关键技术,解决了主流基准测试中的不足之处,并评估了
→
PDF
5 months ago
探究语言模型在序列判别式训练神经转录器中的影响
该研究探讨了不同上下文长度和标签单位(音素与词)在基于音素的神经传递器的序列鉴别式训练中,语言模型(LMs)的影响。研究结果表明,使用词级别的 LM 在训练中优于音素级别的 LM,并且概率计算所使用的 LM 的上下文大小对性能有限影响,同时
→
PDF
9 months ago
通过随机填充实现位置嵌入的令人沮丧的简单改进
本文提出了一种简单而有效的策略 Random Padding 来平衡位置嵌入的更新次数,从而在提取式问答的模型性能上获得显著提升。在训练模型对长文本进行评估时,特别是当模型在短文本上进行训练时,Random Padding 会表现得更加优异
→
PDF
a year ago
Prev
Next