BriefGPT.xyz
Ask
alpha
关键词
scaling down
搜索结果 - 1
使用单个 GPU 在一天内训练语言模型
本文研究了使用单个消费级 GPU 只需训练一天的用遮蔽语言模型完全从头开始训练的 transformer-based 语言模型的下游性能,同时提供了一个经过修改的预训练流程,并提供证据表明即使在有限的计算环境下,性能也与大型计算环境下观察到
→
PDF
2 years ago
Prev
Next