BriefGPT.xyz
Ask
alpha
关键词
accuracy reduction
搜索结果 - 2
Transformer 中 Attention 值的分布、稀疏性和推断时量化
研究了 transformer 的注意机制需要多少信息在应用(推理)时真正需要,并且针对不需要训练的优化进行了系统研究,提出了基于剪枝和对数尺度映射的推理时间量化技术,发现 80%的注意值可以剪枝为零,而精度只有不到 1.0%的相对损失,使
→
PDF
3 years ago
非独立同分布数据下的联邦学习
本文着重研究了在本地数据不 IID 的情况下联邦学习面临的统计挑战,提出了一个使用全局数据子集来提高非 IID 数据训练准确性的解决方案,并通过实验表明,使用仅占 5%的全局数据子集就可以将 CIFAR-10 数据集的准确性提高 30%。
PDF
6 years ago
Prev
Next