BriefGPT.xyz
大模型
Ask
alpha
关键词
model parallelization
搜索结果 - 3
超越端到端训练:以上下文补充提升贪婪局部学习
从信息论的角度出发,我们在贪婪的局部学习中提出了一种 ContSup 方案,它将隔离模块之间的上下文补充作为补偿信息损失的手段。在基准数据集(即 CIFAR、SVHN、STL-10)上的实验证明,我们提出的方法能够显著提高贪婪的局部学习性能
→
PDF
7 months ago
块状态变换器
本文介绍了一种名为 Block-State Transformer (BST) 的混合层,它在内部组合了用于长距离上下文建模的 SSM 子层和用于序列的短期表示的 Block Transformer 子层,并研究了三种完全可并行化的 SSM
→
PDF
a year ago
使用高效的图遍历顺序在设备放置中加速模型并行训练
本研究探讨了神经网络图遍历顺序对设备部署的影响,特别是在模型并行化中如何选择最佳遍历顺序,以提高不同神经网络家族的训练时间。
PDF
2 years ago
Prev
Next