- 基于耦合的标准化流的普遍性
我们提出了一个新的理论框架,用于理解基于耦合的标准化流(如 RealNVP)的表达能力。我们的研究结果支持耦合架构具有表达性,并提供了选择耦合函数表达性的细致观点,弥合了实证结果与理论理解之间的差距。
- 释放基于脉冲的量子神经网络的表达能力
量子机器学习基于噪声中尺度量子设备需要对有限的量子资源进行最优利用,而基于脉冲的模型在相同相干时间内能够构建 ' 无限 ' 深的量子神经网络,从而释放出更大的表达能力。本研究从量子控制理论的角度探讨了基于脉冲的模型的潜力,证明了基于脉冲的模 - 图机器学习基础的未来方向
机器学习与图神经网络,尤其是使用图神经网络(GNN)的机器学习,在各个领域的图数据广泛应用中受到了广泛关注。然而,对于 GNN 的性质仍存在理论上的不完备性。最近的理论进展主要集中于阐明 GNN 的粗粒度表达能力,主要使用组合技巧。然而,这 - 理解 Transformer 在序列建模中的表达能力和机制
我们对 Transformer 在序列建模中长、稀疏和复杂内存的逼近性质进行了系统研究,调查了 Transformer 的不同组件(如点积自注意力、位置编码和前馈层)对其表达能力的影响机制,并通过建立显式的逼近率来研究它们的综合效应。我们的 - ICLRPF-GNN: 可微分粒子滤波法的通用图表示近似
通过引导学习过程的精确同构求解器技术,我们的算法使消息传递图神经网络具有通用性,通过从根到叶子节点的搜索树中采样多个路径,并结合粒子滤波更新来学习更具辨别性的表示,从而在运行时间仅线性增加的情况下,在同构检测的合成基准和真实世界数据集上始终 - AAAI用特征值修正提高谱图神经网络的表达能力
本论文观察到标准化拉普拉斯矩阵经常具有重复的特征值,因此对多项式滤波器的表达能力产生了限制,并提出了一种特征值校正策略来增强多项式滤波器的拟合能力和表达能力。实验结果表明,该方法在合成和现实世界数据集上具有明显的优势。
- ReLU 与 Step 网络在浮点运算下的表现能力
利用浮点数和操作,研究了神经网络的表达能力,得出了使用二进制阈值单元或 ReLU 的神经网络可以记忆任何有限的输入 / 输出对并且可以在误差范围内近似任何连续函数的结论。
- 走向基于原理的图变换
基于 k 维 Weisfeiler-Leman(k-WL)层次结构的图学习架构在理论上具有良好的表达能力。然而,这样的架构通常在实际任务中无法提供可靠的预测性能,限制了它们的实际影响。相比之下,基于全局注意力的图变换器等架构在实践中表现出强 - 关于图神经网络的表达能力
该论文概述了图神经网络的 “表达能力” 概念,并就图神经网络的设计选择提供了有价值的见解。
- 通过积分激活变换提升深度神经网络的表达能力
基于神经 ODE 的洞见以及连续宽度的概念,通过训练和积分变换 (IAT-ReLU) 等手段,实现了全连接深度神经网络的拟合能力和平滑性的提升。
- 调整 Attention 中的 LayerNorm:朝着高效的多模态 LLM 微调
将大型语言模型(LLMs)转换为多模式大型语言模型(MLLMs)的有效策略,通过调整 LayerNorm 来实现性能提升和模型表现力改善。该策略相较于其他调整方法具有高效性,同时进一步使用对话数据进行选择性调整能够提高效率。
- 通过图分割提升图神经网络的表达能力
图分区神经网络(GPNNs)是一种新颖的 GNN 架构,通过对图进行分区以及顶点集和子图之间的结构相互作用的探索,提高了 GNN 的表达能力,并在各种图基准任务中展示了超越现有 GNN 模型的卓越性能。
- 通过随机电路最大化量子计算表达能力
在嘈杂的中间尺度量子时代,基于变分量子算法(VQA)以提供量子优势而出现为一条有希望的途径。在本研究中,我们提出并数值上证明了一种新颖的 VQA 方法,利用随机量子电路生成变分波函数,并通过人工神经网络对这些随机电路的分布函数进行参数化优化 - 关于 GNNs 中过度压缩问题的阐述:当前方法,基准和挑战
论文总结了当前文献中过度压缩问题的不同表述,并提出了三种解决这一问题的方法,讨论了过度压缩与可表达能力之间的对齐以及过度压缩与过度平滑之间的权衡,总结了现有工作中用于验证过度压缩缓解方法有效性的实证方法,并列出了一些有待进一步探索过度压缩问 - ReLU 网络在凸松弛下的表达能力
通过对常用凸松弛方法进行深入研究,我们发现:(i)更高级的松弛方法允许更多单变量函数被精确分析的 ReLU 网络表达,(ii)更精确的松弛方法能够允许指数级规模的解空间编码相同函数的 ReLU 网络,以及(iii)即使使用最精确的单神经元松 - 低秩适应的表达能力
使用低秩适应(LoRA)参数有效的微调方法,通过分析其表达能力和近似误差,证明了 LoRA 方法能够将预训练模型适应到较小目标模型,并适用于全连接神经网络和 Transformer 网络。
- 通过非线性透视理解深度神经网络
该研究提出了一种理论上可靠的解决方案,用于跟踪计算机视觉应用中深度神经网络中的非线性传播,提供了详实的实验结果,突出了提出的亲和性评分的实用性及其潜在的广泛应用。
- 具有强制注意力的 Transformer 编码器所接受的逻辑语言
我们研究了可以被 Transformer 编码器识别的形式语言,重点关注了两种自注意机制:UHAT(Unique Hard Attention Transformers)和 AHAT(Average Hard Attention Trans - 使用本能:利用神经武士和变形金刚的指导优化
使用神经劫持算法优化预训练 transformer 模型的指令,以提升大型语言模型在不同任务中的性能。
- 带有 ReLU,leaky ReLU 和 softplus 激活函数的深度神经网络能够在 $L^p$ 意义下,证明地克服 Kolmogorov 偏微分方程中具有 Lipschitz 非线性的维数灾难
深度学习方法在逼近高维偏微分方程方面的研究,尤其是通过神经网络和活化函数的选择,可以有效地克服维数诅咒,并能够在多项式时间内以任意精度逼近解,为解决偏微分方程提供了广泛应用的前景。