BriefGPT.xyz
大模型
Ask
alpha
关键词
grad-relu
搜索结果 - 1
LayerMatch: 伪标签对所有层是否有益?
基于理论分析和经验实验证明,特征提取层和线性分类层在响应伪标签时具有不同的学习行为。我们开发了两种层特定的伪标签策略:Grad-ReLU 可以通过在线性分类层中消除伪标签的梯度不利影响来减轻噪声伪标签的影响,Avg-Clustering 可
→
PDF
12 days ago
Prev
Next