- EchoMamba4Rec: 基于频谱滤波的高级顺序推荐中双向状态空间模型的协调
EchoMamba4Rec 是一种利用状态空间模型 (SSMs) 和双向处理来提升顺序推荐效果的模型,通过频域滤波器和门线性单元 (GLU) 等技术来捕捉用户交互数据中的复杂模式和依赖关系,实现更准确和个性化的推荐。
- 基于视觉变换器的端到端基于视觉的四旋翼避障
在高速四旋翼无人机中展示了一种基于关注机制的端到端方法,用于在密集、杂乱环境中避开障碍物,与各种最先进的架构进行比较。
- 增强方面 - 句子意识:一种面向方面的情感分析的新方法
通过增强方面 - 句子感知关注机制,提出了一个名为 A3SN 的新颖技术,通过增加注意力模块和整合特征表示,增强了 Aspect-Based Sentiment Analysis(ABSA)的效果,并在三个基准数据集上胜过了最先进的基准模型 - 使用 Transformer 进行高分辨率图像分割的自适应修补
使用自适应网格细化方法 (Adapative Mesh Refinement, AMR) 可以作为图像细分的预处理步骤,基于图像细节自适应地划分图像补丁,从而减少传给模型的补丁数量。该方法与任何基于注意力的模型无缝地配合使用,能够在实际病理 - 利用注意力机制进行基于补丁的生物医学图像分类
医学图像分析可以通过一种扎根于自注意机制的创新架构得到促进。传统的卷积神经网络(CNN)在捕捉像素级复杂空间和时间关系时需要帮助,而其卷积窗口的固定大小限制了输入波动。为了克服这些限制,我们提出了基于注意力模型而非卷积的新范式。这些模型作为 - EASRec:用于高效长期顺序推荐系统的弹性架构搜索
我们的研究针对当前基于注意力模型的顺序推荐系统(SRSs)在计算和资源效率方面存在的困难进行了探讨,提出了结合自动修剪技术和先进模型架构的新方法。我们还探索了资源受限的神经架构搜索技术在减少计算成本、延迟和能源消耗方面的潜力,同时保持或提高 - 基于局部和全局特征的方面情感分类的联合学习
该研究论文提出了一种基于局部和全局特征的模型,通过设计局部编码器和双级图注意网络,有效地对面向方面的情感分类进行建模,并在 SemEval 2014 和 Twitter 数据集上取得了最先进的性能。
- 通过学习离散函数来理解 Transformer 和 LLM 中的上下文学习
为了理解上下文学习现象,最近的研究采用了一个简化的实验框架,并证明了 Transformer 可以学习各种实值函数的基于梯度的学习算法。然而,Transformer 在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确,而这些能力 - 多模态注意力融合在孟加拉语言音行为识别中的应用
本文开发了一种多模态方法,结合 wav2vec2.0 和 MarianMT 模型,在 Bengali 语音语料库中使用多模态注意融合预测语音行为,并展示了该模型在语音任务中的优越性能。
- 探索有意图的键值查询模型空间
该论文探讨了一种新的神经网络模块,称为 Keys-Values-Queries(KVQ)空间,它是对注意力(Attention)思想的扩展,能够高效地近似许多真实问题,其中包括解决标准最小二乘问题,并成功地应用于从 few-shot lea - MM部分观测排队网络中的分散协调
本研究使用基于关注力和自动编码机的方法来改进多个智能体之间的通信,以在电报网络中提高信息共享的效率,从而提高系统的综合奖励。
- ProGen2:探索蛋白质语言模型的界限
介绍了一套名为 ProGen2 的蛋白质语言模型,它具有 64 亿个参数,在来自多种数据库的超过 10 亿个蛋白质序列数据集上进行训练。ProGen2 模型表现出捕获已观察到的进化序列分布,生成新的可行序列以及在不需要额外微调的情况下预测蛋 - 对角状态空间与结构状态空间同样有效
本研究旨在探索长序列数据中的长程依赖性,评估 S4 和 DSS 模型在多种模态下的性能提升,并针对包括 Long Range Arena 任务和语音分类在内的不同任务进行了性能测试。结果表明,在某些任务上 DSS 模型的表现可媲美 S4 模 - CVPR增量变换器结构增强的图像修复与遮盖位置编码
该论文提出了一种基于注意力机制的变形器模型依次恢复整体图像结构,利用一个附加的结构修复器,通过零初始化残差加法有效地集成预训练修补模型,采用掩膜位置编码策略提高了不规则掩膜修补效果。
- 使用多任务学习和 BERT 嵌入进行极性和主观性检测
本文提出了一种基于深度多任务学习的架构,通过使用预训练的 BERT 和 Glove 词向量嵌入,采用基于注意力机制的多任务模型,实现了情感极性和主观性检测,并且与先前的单任务和多任务模型进行了比较,提高了基准性能。
- ICLR无需注意力的关键词检测
本文探讨了是否自注意力在识别语音关键词方面是否真的不可替代,提出了一种高效的小型化门控多层感知机模型,证明该方法在语音关键词检测方面的性能表现强于自注意力方法且参数量更少。
- EMNLP关于使用注意力机制分隔单词的难度
在语音领域中,基于注意力机制的序列到序列模型被用于解决诸如语音翻译或语音识别等任务中的词语分割问题。但本研究表明,仅依靠注意力机制是不稳健的,只有在训练数据包含话语标注的情况下才具有可用性。
- 视觉 Transformer 对抗攻击鲁棒性揭示
本文针对 Vision Transformer 在对抗攻击下的稳健性问题进行了探究,实验证明 Vanilla ViTs 或 Hybrid-ViTs 的对抗攻击鲁棒性比 CNNs 更强。通过提供特征图、注意力图等分析,对注意力模型进行了深入理 - 基于 Transformer 的单次运动补全
本文提出了一种有效的方法来解决多种动作完成问题,在多个评估设置下达到新的艺术状态准确性。该方法由两个模块组成,标准 Transformer 编码器和可训练混合嵌入模块,可以在实时单向传播中预测多个缺失帧。
- ACL基于图神经网络和依赖关系感知注意机制的剧透检测模型
提出了一种名为 SDGNN 的新型剧透检测模型,基于语法感知的图神经网络,通过对依赖关系的利用达到更好的效果,实验证明其在两种真实的基准数据集上表现优于现有的剧透检测模型。