BriefGPT.xyz
Ask
alpha
关键词
training schedule
搜索结果 - 2
广度优先流水线并行
引入 Breadth-First Pipeline Parallelism,这是一种结合了 pipeline 和 data parallelism 的新型训练策略,通过充分利用 GPU 和每个 GPU 上的小 batch size 的特性,
→
PDF
2 years ago
使用具有标签分布感知边缘损失函数学习不平衡数据集
为了解决深度学习在类别分布不平衡的情况下训练表现差的问题,本研究提出了两种新的方法:一、设计了基于理论的标签分布感知边界 (LDAM) 损失函数;二、提出了一种简单而有效的训练策略来推迟重新加权,并在减轻权重的复杂性的同时实现模型对初始表示
→
PDF
5 years ago
Prev
Next