- 当部分大于总和:个别 LLM 组件能超越完整模型
通过将大型语言模型的输出分解为注意力头和 MLP(组件)的个体贡献,本文研究了上下文学习(ICL)。通过观察好表现的组件(即使整体模型表现不佳,它们在分类任务上也表现良好)、表现较差的组件(比随机预测差得多)和标签偏倚组件(总是预测相同的标 - Grad-Instructor:元学习和自动机器学习的可解释性评估神经网络的通用反向传播
使用强化学习训练的评估神经网络(ENN)作为反向传播中的附加评估函数,提高深度神经网络训练的方法,通过对 0.15^2 倍分辨率的输入数据进行处理,ENN 实现有效的推理,结果表明,使用该方法训练的 MLPs 的平均测试准确率达到了 93. - 利用粗化策略提升多层感知机在长期时间序列预测中的性能
基于卷积的 Coarsened Perceptron Network (CP-Net) 提出,通过提取短期语义和上下文模式来提高多层感知机(MLPs)的预测能力,具有简单的架构和低运行时间,相较于 SOTA 方法改进了 4.1% 以上,窗口 - 通过无监督学习在图上学习 MLP 以加速图推理
通过无监督学习简化后的多层感知器(MLPs)在图表上进行学习,以增强泛化效果,特别是在未见节点的设置中,实现了显著的性能提升(7-26%)和图表推断加速(90-126 倍),在大规模图表数据集上优于现有基准方案。
- 神经场的坐标感知调制
提出了一种利用 MLPs 和 grid representations 的新方法,通过 Coordinate-Aware Modulation (CAM) 将 grid representations 注入 MLP 的中间特征来增强神经表示 - 混合去噪通用占据网络
通过使用 MLPs 对局部特征进行编码,以点云来恢复 3D 重建的模型,通过引导去噪的相对位置编码,从点云中汇集附近的特征,预测空间中的任意查询点的占用概率,并夺得了卷积方法的最新成果,并且只使用了一半的模型参数。
- ICCV自适应频率滤波器作为高效的全局令牌混合器
通过将传统的卷积定理应用于深度学习,本研究揭示了自适应频率滤波器可作为高效的全局令牌混合器,进而提出了适应性频率滤波(AFF)令牌混合器。实验证明,AFFNet 在广泛的视觉任务中实现了卓越的准确性和效率平衡。
- ShiftAddViT:基于混杂乘法原语的高效视觉 Transformer
本文提出了一种名为 ShiftAddViT 的卷积神经网络,用于多种视觉任务,该网络通过将注意力和多层感知机重新参数化为位移和加法,从而实现在 GPU 上进行端到端推理加速,并在一定程度上提高了训练和推断效率。
- ACL解释 Transformer 如何利用上下文来建立预测
本文使用 Transformer 的最新可解释性进展提出了分析语言生成模型的过程,并使用对比实例比较了我们的方法与渐变和扰动基线的解释的一致性,结果表明我们的方法具有更好的表现。最后,我们将该方法应用于神经机器翻译模型,并展示了生成人类相似 - 从图神经网络中提取低 / 高频率知识并注入到 MLPs 中:一种有效的 GNN 到 MLP 的蒸馏框架
本文介绍了一种名为 Full-Frequency GNN-to-MLP 的知识蒸馏方法,它能够从 GNN 中抽取低频和高频知识,并将其注入 MLP 中,从而解决了现有方法中可能存在的高频知识被低频知识淹没的问题。实验表明,该方法在六个图形数 - 可控卷积神经网络的隐式神经卷积核
使用 MLP 来参数化 G - 可操作的卷积核,提出了一种简单灵活的 Steerable CNNs 框架,可推广到任何可建立 G - 等变 MLP 的群组 G。在点云(ModelNet-40)和分子数据(QM9)上应用我们的方法,与标准的 - SA-MLP: 将 GNN 中的图知识蒸馏为结构感知的 MLP
采用结构感知的多层感知机(SA-MLP)来代替节点再递归获取和聚合并加入结构信息以提高大规模图上的推理加速,并且引入了结构混合知识蒸馏策略以增强 MLPs 学习结构信息的能力并在传递性和归纳性场景下对 8 个基准数据集进行广泛实验,从而比教 - ICLR使用 MLP 初始化的 GNN 训练加速
基于多层感知器的对等 MLP 的初始化方法在大型图数据上训练图神经网络方面取得了显著的加速和性能提升。
- 上下文学习和归纳头
本文从六个方面提出了假设,指出 “感应头” 可能构成了大型变换器模型中大部分 “上下文学习” 的机制。同时,通过强因果证据和相关性证据,证明了这种感应头可能是任何大小的变压器模型中一般情况下上下文学习的来源。
- AAAI活跃的代币混合器
本文提出 ATMNet 模型,以 Active Token Mixer 为基础操作符,通过主动预测有用上下文的位置,并学习如何在通道级别上将这些上下文与 query token 融合,从而扩展了 token-mixing 的空间范围,提高了 - 无图神经网络:通过蒸馏教老 MLPs 新技巧
使用知识蒸馏技术将图神经网络(GNNs)和多层感知器(MLPs)相结合,提出了无图依赖的神经网络 GLNNs,并在 7 个数据集的生产环境中证明其比 GNNs 更快且准确率接近,适用于延迟受限的应用程序。
- ICLR几何和物理量改进 E (3) 等变消息传递
我们介绍了可以将位置、力、速度或旋转等协变信息纳入计算物理和化学任务的可旋转 E (3) 等变图神经网络(SEGNNs),该模型能够通过可旋转 MLPs 将几何和物理信息纳入信息和更新函数,我们通过等变非线性卷积的镜头讨论了我们和相关工作, - ICLR当视觉 Transformer 在没有预训练或强数据增强的情况下优于 ResNets
本文将 ViTs 和 MLP-Mixers 从损失几何的角度进行研究,旨在提高模型的数据效率和推理泛化能力,并通过锐度感知优化器来促进平滑性,以在包括有监督学习、对抗学习、对比学习和迁移学习在内的各种任务上显着提高 ViTs 和 MLP-M - AAAI少即是多:在视觉 Transformer 网络中降低注意力
我们提出了一种基于层次结构以及多层感知器与自注意力模块相结合的 Less attention vIsion Transformer(LIT)来提高特征提取效率,并通过学习可变形 Token 合并模块自适应的融合不均匀的信息块,以达到在图像分 - MM基于群体骨架的复杂事件中的人类行为识别
本文介绍了基于多人骨骼的人类动作识别的新方法,利用多尺度时空图卷积网络提取骨骼特征,用多层感知器嵌入参考人和其他人之间的距离值,并通过特征融合和分类得出在 HiEve 数据集上超越其他技术的最佳性能。