BriefGPT.xyz
大模型
Ask
alpha
关键词
training behavior
搜索结果 - 2
超越固定训练持续时间的尺度定律和计算优化训练
通过研究模型的规模和训练行为,本研究提出了常数学习率和冷却方法作为替代余弦调度的更简单且可预测可靠的训练方法,并发现随机权重平均可以在不增加额外训练成本的情况下改善训练过程中的性能,从而减少计算和 GPU 时间,实现规模实验的效率提升。
PDF
a month ago
医学图像扩散分割分析
对扩散分割与图像生成之间的区别进行分析和讨论,重点关注训练行为,评估直接用于分割的扩散分割架构的表现,以及不同医学分割任务对扩散分割行为的影响及相应的扩散过程的调整方法。通过这些分析,旨在为未来扩散分割方法的设计和评估提供深入见解。
PDF
3 months ago
Prev
Next