BriefGPT.xyz
Ask
alpha
关键词
multi-token prediction
搜索结果 - 2
ACL
DynaMo: 动态多词采样加速语言模型推断
DynaMo 是一个多令牌预测语言模型套件,通过在预测联合概率分布的基础上动态预测多个令牌来减少净推理时间,实现了与基准 (Pythia-6.9B) 相同质量的生成文本,并获得 2.57 倍的加速,仅有 5.87% 和 2.67% 的参数和
→
PDF
2 months ago
通过多令牌预测实现更好、更快的大型语言模型
我们建议通过训练语言模型来预测多个未来标记,以提高样本利用效率,并对其下游能力进行改进,特别是在多词预测作为辅助训练任务时,在代码和自然语言生成模型方面获得了显著的改善。
PDF
2 months ago
Prev
Next