context size | BriefGPT - AI 论文速递

关键词context size

搜索结果 - 5

无位置编码的因果 Transformer 的长度概化
通过对无位置编码（NoPE）的长度泛化属性进行研究，我们发现虽然 NoPE 可以处理比常用的明确位置编码更长的序列，但其上下文长度仍然有限。我们确定了 NoPE 泛化失败与注意力分布分散的联系，并提出了一种参数高效的调整方法，通过搜索注意力
PDF3 months ago
专家混合模型
引入了 Mixtral 8x7B，一种稀疏的专家混合（SMoE）语言模型，采用了与 Mistral 7B 相同的架构，每个层由 8 个前馈块（即专家）组成，并通过路由网络选择两个专家处理当前状态和组合它们的输出，最终得到使用 13B 活跃参
PDF6 months ago
信息过载：为 BabyLMs 保持简单的训练
荷兰格罗宁根大学对 BabyLM 挑战的工作细节。通过简单 - 复杂的策略，我们研究了语境大小、词汇量和数据的总体语言复杂性等方面，发现只有语境大小对训练语言模型有真正的益处。然而，仅仅改变语境大小就让我们在（Super）GLUE 任务上平
PDF8 months ago
基于查询的长文档关键词提取
文章讨论了在自然语言处理中，基于 Transformer 的架构会有输入大小的限制问题，但该论文通过将长文档分块并保持全局上下文，以查询定义话题，从而克服了这个问题，开发的系统使用预训练的 BERT 模型并调整它来估计给定文本跨度形成关键短
PDF2 years ago
ACLTransformer 中的自适应注意力跨度
本研究通过提出一种自我注意力机制，可以学习其最优的注意范围，从而显着扩展了 Transformer 中使用的最大上下文大小，同时保持对内存占用和计算时间的控制。在字符级语言建模任务中，我们使用最大上下文为 8k 个字符，在 text8 和
PDF5 years ago