BriefGPT.xyz
Ask
alpha
关键词
neural memory
搜索结果 - 2
大型语言模型预训练中稀疏前馈网络的统一视角
本文分析了 S-FFN 这种大而稀疏的前馈网络的两个主要设计选择:内存块(或专家)大小和内存块选择方法,并提供了它们相对有效性和效率的见解。在语言建模前训练中,我们发现一种更简单的选择方法 ——Avg-K,通过均值聚合隐藏状态选择块,可以比
→
PDF
a year ago
跨域 Few-shot 学习的分层变分记忆
本研究提出了一种基于分层原型模型和层次内存的神经记忆方法,该方法能够在领域转移的情况下,灵活地依赖不同语义层面的特征来适应新任务,而数据驱动的学习方法进一步可以使模型自适应地选择最具通用性的特征。该方法通过大量消融实验验证了性能的显著提升,
→
PDF
3 years ago
Prev
Next