BriefGPT.xyz
Ask
alpha
关键词
long-range context problems
搜索结果 - 1
用于基于记忆的 Transformer 的内存高效随机方法
我们提出了一种新颖的两阶段训练机制和一种新颖的正则化技术,以提高基于内存的 Transformer 的训练效率,该模型通常用于解决长程背景问题。我们在字符级语言模型任务上展示了我们的结果模型 Skip Cross-head Transfor
→
PDF
8 months ago
Prev
Next