关键词representation collapse
搜索结果 - 12
- 椭圆形注意力
应用 Mahalanobis 距离计算注意力权重,将模型的特征空间在高上下文相关性方向进行拉伸,从而达到减少特征塌缩和提升模型鲁棒性的效果,验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product - 稀疏专家混合模型中扰动余弦路由器的统计优势
通过对稀疏专家混合模型中余弦路由器的计算进行全面分析,我们证明当通过添加噪声到余弦路由器中的 L2 范数来稳定余弦路由器时,无论专家的结构如何,在稀疏混合模型中估计的速度可以显著提高到多项式速度。
- CVPR重新思考使用非独立同分布数据进行联邦无监督学习的表示
FedU2 提出了一种用于非 I.I.D. 数据的联邦无监督学习方法,通过灵活的统一正则化器(FUR)和高效的统一聚合器(EUA)来解决现有方法在局部和全局模型表示之间存在的困扰,并通过跨设备和跨隔离评估实验证明了其性能。
- CompeteSMoE - 通过竞争有效训练稀疏专家混合模型
通过引入竞争机制来解决稀疏专家混合(SMoE)的表示坍塌问题,我们提出了 CompeteSMoE 算法,通过部署一个简单的路由器来预测竞争结果,从而在保持低计算开销的同时实现了强大的性能提升。我们在两个变压器架构和各种任务上进行了广泛的实证 - ACLUNSEE: 无监督非对比句子嵌入
在大规模文本嵌入基准测试中,我们提出了一种名为 UNSEE 的无监督非对比句子嵌入的新方法,通过解决表示崩溃问题和引入目标网络的简单解决方案,我们实现了可与对比目标相媲美的性能提升。
- 松弛对比学习用于联合学习
我们提出了一种新颖的对比学习框架,以应对联邦学习中的数据异构性挑战。我们分析了本地训练期间客户端之间梯度更新的不一致性,并建立了其与特征表示分布的依赖性,从而导出了用于减轻局部偏差的监督式对比学习(SCL)目标。此外,我们表明,在联邦学习中 - 应对边缘噪声的鲁棒链接预测
基于信息理论的鲁棒图信息瓶颈原则 (RGIB) 通过提取可靠的监督信号并避免表示崩溃,解决了边缘噪声对图中拓扑和目标标签的影响,实现了对鲁棒表示的学习目标。实验证实了我们的 RGIB 实例在多个嘈杂场景中的有效性。
- 失败模式的三重困境及可能的出路
我们提出了一种针对基于聚类的自主学习(SSL)的全新客观函数,旨在解决表示坍塌、聚类坍塌和集群分配排列不变性等三种失败模式的问题。我们的目标函数包含三个关键组成部分:(i)惩罚表示坍塌的生成项,(ii)促进对数据增强的不变性,从而解决标签排 - 利用表示一致性目标提高语言模型微调
本研究提出了一种新的 fine-tuning 方法,通过抑制表示中不必要的变化来避免表示坍塌,同时对此进行了度量,并在 13 个任务和低数据量及数据标签扰动的情况下得到了显著的性能提高。
- 稀疏专家混合模型的表示崩溃
该研究提出了一种在低维超球面上估计令牌和专家之间路由得分的方法,克服了表示塌陷问题并取得了更为一致路由的实验结果。
- 基于双重相关性减少的深度图聚类
提出了一种名为 Dual Correlation Reduction Network(DCRN)的方法,该方法采用双重相关性降低的策略来减少节点编码过程中的表征崩溃现象,同时通过 GCN 中引入传播正则化项来缓解过度平滑造成的表征崩溃现象, - 通过降低表示坍塌改善微调
本论文提出了基于信任区域理论的简化和高效的 fine-tuning 方法,用参数化噪音代替了以前使用的对抗目标,从而在不损害性能的情况下尽可能地减少表示更改。针对 fine-tuning 时的表示崩溃问题,我们还引入了一种新的分析方法。实验