- 基于注意力驱动的约束平衡的视觉定位
本文介绍了一种名为 AttBalance 的新框架,通过优化语言相关区域内的视觉特征行为,以提高视觉定位任务的性能,并在四个不同基准测试上对五种不同模型进行了评估和持续改进,进而在 QRNet 上实现了最新的表现水平。
- 注意力的解剖学研究
我们引入一种范畴论的图示形式,以系统性地关联和推理机器学习模型。我们的图示以直观但不丢失关键细节的方式呈现架构,其中模型之间的自然关系通过图形变换捕捉,并且重要的差异和相似之处一目了然。在本文中,我们着重于注意力机制:将民间传说转化为数学推 - 揭开 U-Net 模型中感受野尺寸对医学图像分割效果的神秘
医学图像分割是医疗应用中关键的任务,本研究探讨了 U-Net 和 Attention U-Net 架构中的感受野(RF)大小及其对模型性能的影响,研究了 RF 大小与感兴趣区域特征、模型性能以及计算成本之间的关系,提出了表示给定网络层的理论 - 引导式上下文门控:学习利用视网膜底图中显著病变
通过引入 Guided Context Gating 注意机制,本研究提出了一种用于有效表示医学图像(特别是视网膜图像)的新方法,相较于现有注意机制,在定位病变上具有更好的效果,并在视网膜病变的严重程度评估中实现了显著的精度提升。
- 分层联想记忆、并行化 MLP-Mixer 和对称性破坏
通过将 Krotov 的分层关联记忆与 MetaFormers 相结合,该论文提出了一种新的视角,将整个 Transformer 块的完整表示,包括标记 -/ 通道混合模块、层归一化和跳跃连接,作为一个单一的 Hopfield 网络。该方法 - HiP 注意力:带有分层注意力修剪的稀疏次二次注意力
我们提出了一种名为 HiP 的新方法,通过层次化剪枝注意力机制将训练和推断的时间复杂度从 O (T^2) 降低到 O (T log T),空间复杂度从 O (T^2) 降低到 O (T),并且能够扩展到数百万个令牌的预训练 LLM 应用中。
- AGFA-Net:基于计算机断层扫描血管造影的冠状动脉分割的注意力引导和特征汇聚网络
通过 coronary computed tomography angiography (CCTA) 图像,提出了一种注重注意力的特征聚合的三维深度网络 (AGFA-Net),用于冠状动脉分割,该网络利用注意机制和特征细化模块来捕捉显著特征 - MeMSVD: 使用增量 SVD 捕捉长程时域结构
这篇研究论文讨论了长期视频理解的问题,提出了一种基于低秩逼近的方案来解决注意力机制的复杂性和内存存储问题,并通过大量实验验证了该方案在不同架构和任务上的优越性。
- 自注意力神经网络的动力学平均场理论
使用非平衡 Hopfield 网络的路径积分方法研究了变压器网络的动力学规律,发现了与混沌分叉相关的非平衡相变等非平凡的动力学现象,并讨论了这种分析方法改善对变压器模型内部运作理解的潜力。
- 深度状态空间模型的对抗鲁棒性探索
深度状态空间模型(SSMs)面临着真实世界部署中的对抗性扰动(APs)所带来的严重安全挑战。本研究评估了 SSMs 的不同结构变种在对抗训练(AT)中的对抗鲁棒性(AR)表现,并发现引入注意力机制对于 SSMs 在 AT 中具有更好的稳健性 - ICML向量化的条件神经场:用于解决时变参数的偏微分方程的框架
使用矢量化条件神经场模型(VCNeFs),并结合注意力机制,通过并行计算多个时空查询点的解决方案并对其依赖关系进行建模,解决了 Transformer 模型在求解偏微分方程方面的问题,并具有优于现有机器学习模型的竞争力。
- S$^2$GSL:基于分段到句法增强图结构学习的方面情感分析
提出了一个新的方法 S$^2$GSL,在 Aspect based Sentiment Analysis (ABSA) 中结合了段落感知的语义图学习和基于语法的潜在图学习,以提高图结构学习的准确性和效果。
- 渐进自信遮罩注意力网络用于音频 - 视觉分割
通过引入渐进自信掩蔽注意力网络(PMCANet),利用注意机制揭示音频信号和视觉帧之间的内在相关性,并设计了高效且有效的跨注意模块来通过选择查询标记增强语义感知。实验证明,我们的网络在需要更少的计算资源的情况下比其他 AVS 方法表现更好。
- TE-NeXt: 一种基于 LiDAR 的 3D 稀疏卷积网络用于可通行性估计
TE-NeXt 是一种基于残差卷积块的新颖高效的架构,能够从稀疏的 LiDAR 点云中进行可通行性估计(TE)。通过融合当前趋势的注意机制和 3D 稀疏卷积的概念,TE-NeXt 旨在展示其在各种城市和自然环境下的泛化能力,使用了如 Sem - DS@BioMed 在 ImageCLEFmedical Caption 2024 中的研究:通过概念检测集成增强的医学字幕生成中的注意力机制
我们的研究提出了一种改进的医学图像描述生成方法,通过将概念检测集成到注意机制中。该方法利用先进模型识别医学图像中关键概念,并将其纳入描述生成过程中。结果表明,我们使用的 Swin-V2 模型在概念检测任务中,在验证集上达到 0.58944 - 基于深度卷积神经网络的哈萨语影评方面与极性分类模型
这篇论文介绍了一个针对豪萨语电影评论的方面和极性分类的基于深度卷积神经网络(CNN)的模型,该模型是针对理解文本中的情感细微差别而进行的,特别是针对不同语言和文化。作者创建了一个包含人工注释的综合豪萨语 ABSA 数据集,填补了资源可用性方 - 朝向精准医疗:时序和图像数据的稳健融合
利用多模态数据,特别是医学实验的图像和时间序列数据,提出一种新的方法来改进临床应用中的多模态深度学习,在预测死亡率和表型分型等重要领域中取得了有效的结果,同时克服了噪声和不平衡数据集的挑战,并采用不确定性模型和注意力机制,提高了模型的性能和 - CVPRCSTA:基于卷积神经网络的时空注意力视频摘要
提出了一种基于 CNN 的时空注意力(CSTA)方法,将视频的每个帧的特征堆叠起来形成类似图像的帧表示,并应用 2D CNN 对这些帧特征进行处理,实现对关键属性的学习和视觉重要性的捕捉,在 SumMe 和 TVSum 等数据集上实验证明了 - 自然语言处理中 Transformer 的效率综述
该论文通过对 NLP 的演变及其应用的准确性和效率的评论,以及提出和硬件考虑下对基于 transformer 模型的效率进行改进的研究贡献的调查,旨在确定当前 NLP 技术对可持续社会的贡献,并为未来研究奠定基础。
- MM遥感图像超分辨率的高级特征提取模块
提出了一种名为 Channel and Spatial Attention Feature Extraction (CSA-FE) 的高级特征提取模块,通过使用通道和空间注意力结合标准视觉变换器 (ViT),有效提取特征;在 UCMerce