- Fibottention: 多头多视线接纳的初级视觉表征学习
通过引入 Fibonacci 序列,将 Fibottention 机制嵌入多种视觉任务的 Transformer 架构中,可以在保持计算开销较低的同时,显著提升图像分类、视频理解和机器人学习任务中 ViT 及其变体的性能。
- 不嵌入说话者:长形式神经辨说的无嵌入方法
在本文中,我们提出了一种新的框架,将神经联合抄录模型(EEND)应用于长篇音频,既不需要单独的说话者嵌入,又能够在本地和全局上实现显著的相对 DER 降低以及处理时间的计算复杂性探索。
- 视觉 xLSTM 嵌入的 UNet 在医学三维图像分割中更可靠吗?
这篇论文研究了将 CNN 和 Vision-xLSTM 模型相结合的新方法 UVixLSTM,提出了它作为医学图像分割任务可靠的主干结构,提供出色的分割性能和较低的计算复杂性,并在公开可用的 Synapse 数据集上展现了卓越的性能。
- 学习多样特征之和:计算难度和基于梯度的高效训练用于冈脊组合
研究具有加法结构的目标函数学习的计算和样本复杂性,证明了多项式 target function 可以通过梯度下降法训练两层神经网络高效地学习,同时建立了统计查询算法的边界。
- ICML短 - 长卷积有助于高效硬件线性注意力集中于长序列
通过采用分层和分块思想,我们提出了 CHELA(硬件高效的短长卷积与线性注意力)来解决线性注意力在因果设置下仅保持在理论层面的问题,同时通过替换状态空间模型(SSMs)为短长卷积,实现了稳定的 SSMs,保持真正的线性复杂度。通过对 Lon - 一种通用的信号调制识别深度学习模型的层剪枝方法
深度学习在通信系统中的成功应用使得深度神经网络成为信号分类的首选方法。然而,这些模型通常具有高计算复杂度和大的模型尺寸,这阻碍了它们在通信系统中的实际部署。为解决这个挑战,我们提出了一种新型的层剪枝方法,通过将模型分解成几个连续的块,每个块 - 线性二次系统控制的全自适应保证后悔算法
提出了一种解决具有未知系统模型的线性二次(LQ)控制问题的算法,其遗憾为 O (√T),并在此基础上提出了首个完全自适应的算法,同时控制策略更新次数和自适应地优化遗憾上限,避免了计算复杂性问题。
- 用变分推断训练的贝叶斯神经网络的中心极限定理
本文通过严密推导,针对贝叶斯两层神经网络在无穷宽度限制下采用变分推断方法进行回归任务训练,证明了它们的中心极限定理(CLT)。该研究比较了不同网络训练方案的波动行为,发现最小化变分推断方法在计算复杂度上具有更高效的优势。
- DKDL-Net:一种基于解耦知识蒸馏和低秩适应微调的轻量级轴承故障检测模型
提出了一种轻量级的滚动轴承故障诊断模型 DKDL-Net,通过解耦知识蒸馏和低秩自适应微调,在 CWRU 数据集上进行训练,实验证明在保持模型性能的同时,DKDL-Net 在计算复杂度上实现了 99.48% 的准确率,比现有技术模型高出 0 - DNCs 需要更多规划步骤
研究机器学习模型在解决复杂算法问题时忽视所需计算复杂度对其正确解决问题的影响,讨论了计算时间和内存对隐式算法求解器泛化的影响,通过研究不同可规划步骤数的模型,即规划预算,发现规划预算约束可能导致模型泛化能力差,且降低其对外部内存的充分利用。 - 具有无需 Softmax 的高效计算医学图像分类的 Transformers 和序列归一化
本文介绍了一种解决 Transformer 模型二次计算复杂度的简单有效方法,并采用序列标准化技术和矩阵乘法重新排序,使得该方法能够在处理更长序列时降低内存和计算复杂度,从而与传统 Transformer 模型具有可比较的性能。
- CVPR视觉 Transformer 的每个阶段只需要更少的注意力
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturat - 驯服基于分数扩散的无限维非线性逆问题
在这项研究中,我们介绍了一种能够在函数空间中解决贝叶斯逆问题的抽样方法,它不需要似然函数的对数凹性,可以用于非线性逆问题。该方法利用了最近定义的无限维度基于得分的扩散模型作为基于学习的先验,并通过在函数空间上定义的 Langevin 类型的 - 非局部非追溯性主动搜索的摊销深度模拟学习
通过训练神经网络学习搜索的策略,我们研究了在稀缺、有价值类别中进行主动搜索的问题,并使用模仿学习技术模拟专家的策略,实现了具有竞争性性能的低成本搜索策略。
- 满足基数约束下的亚模模极大化的实用 0.385 近似
我们提出了一种新的算法,可以在实践中有效地解决非单调受限子模型最大化问题,结合了 0.385 的逼近保证和低的查询复杂度。通过在各种机器学习应用中进行实验,包括电影推荐、图像摘要等,我们评估了我们算法的实验性能,证明了我们方法的功效。
- 输入引导的多解构单重建神经网络模型用于矩阵分解
基于非负矩阵分解(NMF)概念的 IG-MDSR-NMF 和 IG-MDSR-RNMF 模型,通过发现数据的低秩近似,处理高维数据,并确保模型的非负性约束。与其他九种降维算法相比,两个模型在五个常用数据集上表现出明显的优越性,通过保证数据的 - 基于稀疏自编码器的可扩展可靠电路识别在语言模型中的应用
介绍了一种使用离散稀疏自编码器在大型语言模型中发现可解释电路的高效且健壮的方法,通过训练稀疏自编码器,我们能够从仅有的正例中直接识别与电路相关的注意力头,实现了较高的准确率和召回率,同时降低运行时间。
- 概率和因果可满足性:边缘化的影响
研究了 Pearl 的因果层次结构 (PCH) 框架中的推理和计算复杂性,重点关注概率和因果语言中表达的满足性问题,特别是与边缘化相关的方程,证明了不同层次和操作符的确切计算复杂性结果,以及对受限模型进行了考虑。
- 一种用于遥感图像变化描述的轻量级 Transformer
提出了一种稀疏聚焦变换器用于遥感图像变化编码任务,通过在变换器编码中引入稀疏注意机制,降低参数数量和计算复杂度,与其他最先进的遥感图像变化编码方法相比,仍能获得竞争性性能。
- Conv-Basis:Transformer 中高效注意力推理与梯度计算的新范式
大型语言模型对世界产生了深远影响,其中自注意机制是 transformer 在大型语言模型中取得成功的关键。然而,长度为 n 的输入序列带来的二次计算复杂度 O (n^2) 一直是对提高和扩展更长上下文的一个难以克服的障碍。本文利用注意力矩