BriefGPT.xyz
Ask
alpha
关键词
hessian trace
搜索结果 - 4
APTQ:针对大型语言模型的注意力感知后训练混合精度量化
通过引入 APTQ(关注感知的后训练混合精度量化),该研究提出了一种在大规模语言模型上进行混合精度量化的方法,利用 Hessian 迹作为灵敏度指标,以实现在模型性能保持的前提下进行精度降低,并取得了优于以往量化方法的效果。
PDF
5 months ago
最优收敛速率下的平坦极小值噪音稳定优化
通过注入随机噪声并利用对称分布来降低方差,提出一种类 SGD 算法来求解期望函数的近似一阶稳定点,用于图像分类任务中,相较于尖锐性感知最小化,求得的解的 Hessian 跟踪和特征值较低。
PDF
a year ago
基于 Hessian 剪枝的资源高效神经网络
使用 FP16 精度代替 FP32 实现变异矩阵迹快速估算的剪枝方法可以加快计算速度并缩小 GPU 内存占用,在不影响模型性能的情况下,可以进一步使用 QAT 技术对模型进行压缩。
PDF
a year ago
深度度量张量正则化的策略梯度
本文提出了一种新的策略梯度算法,使用矩阵张量分解以及 Riemann 流形,通过最小化 Riemann 流形中的绝对发散来规范化算法,实现了深度强化学习算法性能的显著提升。
PDF
a year ago
Prev
Next