- SiMBA: 简化的基于 Mamba 的视觉与多元时间序列架构
提出了一种新的体系结构 SiMBA,通过特定特征值计算引入 Einstein FFT(EinFFT)用于通道建模,使用 Mamba 块进行序列建模,通过对图像和时间序列基准的广泛性能研究证明 SiMBA 在性能上优于现有的 SSMs,缩小与 - ICLR无限连接的注意力用于周期结构编码
从晶体结构预测材料的物理性质是材料科学中的一个基本问题。本文介绍了一种无限连接的注意力网络,可以在一个深度学习的特征空间中执行无限的原子间势能求和,并提出了一种名为 Crystalformer 的基于 Transformer 的编码器架构, - 锥头族:层次感知注意力
本文介绍了锥形注意力机制,这是一种用于捕获层次关系的方法,它使用双曲锥体度量数据点之间的相似度,并在各种模型和任务中实现了更好的性能。
- 动力学视角下的分层共享注意力网络
提出一种名为 DIA 的注意力网络单元,该单元在不同的神经网络层之间共享单个注意力模块,从而在各种视觉任务中提高了现有自我注意力模块的准确性,并且具有强大的正则化能力,能够通过增强层间信息交流和梯度值有效地恢复和提高其训练不稳定性。
- 自监督注意力网络和不确定性损失加权在语音突发多任务情感识别中的应用
本文展示了通过使用自主培训的大型音频模型作为共享特征提取器并结合分类器链和注意力网络框架以及不确定性损失加权策略提高情感声音爆发分类和情感预测的方法,以在 ACII 情感声音爆发竞赛中显著优于基准结果的结果。
- ICML学习连续时间空间中的自修正关注力及在序列推荐中的应用
本研究提出了一种新型的自调节注意力网络来学习动态用户偏好,并在三个大规模真实数据集上实验表明,该模型可以实现最先进的顺序推荐性能。
- 注意力网络更具弹性吗?关于注意力网络的精确弹性验证
本研究探讨了注意力网络(ATNs)的稳健性问题,将其最大稳健性的搜索归约为混合整数二次约束规划(MIQCP)问题,并设计了两种启发式预处理方法,通过研究比较 Sparsemax-based ATNs 与 Multi-Layer-Percep - MM层次潜在关系建模用于协同度量学习
本文提出了一种基于协作度量学习(Collaborative Metric Learning,CML)模型的层次模型,可以联合捕捉数据中的潜在用户 - 物品和物品 - 物品之间的关系,并在多个真实数据集上的推荐任务中表现出比现有模型更好的性能 - ACL多模态食谱中程序概念的潜在对齐
本研究提出了一种新的方案,使用注意力机制、跨模态表示和指令和候选答案之间的潜在对齐空间来解决包含图像和指令的任务的语境推理问题,结果表明其优于基线的 19%。
- SANVis:用于理解自注意力网络的视觉分析
本文介绍了一种名为 SANVis 的可视化分析系统,旨在帮助用户理解多头自我注意力网络的行为和特征,其中通过 Transformer 模型的使用展示了 SANVis 在机器翻译任务中的使用场景。
- DIANet:密集和隐式注意力网络
本文提出 Dense-and-Implicit-Attention (DIA) unit,其可通过共享单一的注意力模块,在网络不同层次间促进信息整合。实验表明,由 DIA-LSTM 组成的 DIA 单元能够强调层与层之间的特征相互关系,并可 - NIPS双线性注意力网络
本研究提出了一种基于双线性注意力网络的多模态学习方法,通过提取双线性交互特征来优化多模态输入的注意力分布,以提高视觉问题回答(VQA)和 Flickr30k 数据集上的性能表现。
- 用于语音和文本数据的多模态情感识别的卷积注意力网络
本文提出了一种使用卷积注意网络学习语音和文本数据之间隐藏表示的新方法,较之之前的表现更好,能更好地识别出 CMU-MOSEI 数据集中包含的来自语音和文本数据的情感。
- ICLR结构化注意力网络
本文研究了如何将更丰富的结构分布用于深度神经网络中的嵌入式分类推理,通过两种不同的结构注意力网络:线性链条件随机场和基于图形的解析模型的实验,展示了这些结构的注意力网络超过了基线的注意力模型在各种合成和真实任务中的表现。