BriefGPT.xyz
Ask
alpha
关键词
large-scale machine learning models
搜索结果 - 2
闪光关注是否稳定?
利用数值偏差原则性地分析了大规模机器学习模型训练中的稳定性问题,以 Flash Attention 优化为研究对象,发现其数值偏差比低精度训练要小 2-5 倍。
PDF
2 months ago
SimLM:语言模型能否推断物理系统的参数?
大规模机器学习模型在语言的通用理解、翻译和生成方面的最新进展,给医学、机器人学和科学探索等多个领域带来了影响。然而,这些大语言模型因为其训练所使用的大型语料库的特点,存在无法处理一些特定问题,如高级数学。本文针对大语言模型无法进行物理任务推
→
PDF
7 months ago
Prev
Next