BriefGPT.xyz
Ask
alpha
关键词
normalisation
搜索结果 - 4
Transformer 规范化层与语义子空间的独立性
传统的预归一化(Pre-Norm)方法在 transformer 模型中引入线性子空间干扰,导致电路塌陷现象;相比之下,将归一化操作放在注意力头的线性操作之后(QKV-Norm)能更好地保持表示的稳定性。
PDF
11 days ago
卷积深度核机器
深度核机器(DKMs)是一种最近引入的核方法,具有包括深度神经网络和深高斯过程在内的其他深度模型的灵活性。本文介绍了卷积 DKMs 以及一种高效的跨域引导点逼近方案,并且开发和实验评估了多种模型变体,包括针对卷积 DKMs 设计的 9 种不
→
PDF
10 months ago
知识蒸馏训练动态深入研究
本文通过实验证明了正则化 (即 normalisation)、软最大值函数以及投影层是知识蒸馏的关键因素,并提出了一种简单的软最大函数来解决容量差异问题。实验结果表明,使用这些洞见可以实现与最先进的知识蒸馏技术相当或更好的性能,而且计算效率
→
PDF
a year ago
文档聚类评价:与随机基准的差异
本文介绍了一种利用随机基线进行文档聚类评估的方法,可以区分不合适的聚类并对聚类质量指标进行归一化处理,可用于任何聚类评估。
PDF
12 years ago
Prev
Next