BriefGPT.xyz
Ask
alpha
关键词
context size
搜索结果 - 5
无位置编码的因果 Transformer 的长度概化
通过对无位置编码(NoPE)的长度泛化属性进行研究,我们发现虽然 NoPE 可以处理比常用的明确位置编码更长的序列,但其上下文长度仍然有限。我们确定了 NoPE 泛化失败与注意力分布分散的联系,并提出了一种参数高效的调整方法,通过搜索注意力
→
PDF
3 months ago
专家混合模型
引入了 Mixtral 8x7B,一种稀疏的专家混合(SMoE)语言模型,采用了与 Mistral 7B 相同的架构,每个层由 8 个前馈块(即专家)组成,并通过路由网络选择两个专家处理当前状态和组合它们的输出,最终得到使用 13B 活跃参
→
PDF
6 months ago
信息过载:为 BabyLMs 保持简单的训练
荷兰格罗宁根大学对 BabyLM 挑战的工作细节。通过简单 - 复杂的策略,我们研究了语境大小、词汇量和数据的总体语言复杂性等方面,发现只有语境大小对训练语言模型有真正的益处。然而,仅仅改变语境大小就让我们在(Super)GLUE 任务上平
→
PDF
8 months ago
基于查询的长文档关键词提取
文章讨论了在自然语言处理中,基于 Transformer 的架构会有输入大小的限制问题,但该论文通过将长文档分块并保持全局上下文,以查询定义话题,从而克服了这个问题,开发的系统使用预训练的 BERT 模型并调整它来估计给定文本跨度形成关键短
→
PDF
2 years ago
ACL
Transformer 中的自适应注意力跨度
本研究通过提出一种自我注意力机制,可以学习其最优的注意范围,从而显着扩展了 Transformer 中使用的最大上下文大小,同时保持对内存占用和计算时间的控制。在字符级语言建模任务中,我们使用最大上下文为 8k 个字符,在 text8 和
→
PDF
5 years ago
Prev
Next