BriefGPT.xyz
Ask
alpha
关键词
pause token
搜索结果 - 1
言之有物:使用暂停标记训练语言模型
使用一个可学习的 “暂停” 标记和推迟提取模型输出的方法,我们在语言模型上执行训练和推理,并观察到模型在预训练和微调过程中实现了推理时间延迟的增益,这对各种推理、问答和基本理解任务都有积极的影响,进一步将延迟下一个标记预测的方法应用于各种应
→
PDF
9 months ago
Prev
Next