- Transformer 规范化层与语义子空间的独立性
传统的预归一化(Pre-Norm)方法在 transformer 模型中引入线性子空间干扰,导致电路塌陷现象;相比之下,将归一化操作放在注意力头的线性操作之后(QKV-Norm)能更好地保持表示的稳定性。
- 注意力指令:通过提示增强中间的注意力
扩展大型语言模型的上下文窗口到 128k 个标记或更多,然而,语言模型仍然存在位置偏见和难以使用上下文的中间部分的问题,我们通过指导语言模型分配更多的关注于选定的上下文片段来研究 LLM 的相对位置感知性和缓解不均衡关注的可行性,我们对基于 - ICML变压器是 SSM:通过结构化状态空间对偶实现的广义模型和高效算法
Transformers 与 state-space models(包括 Mamba)存在相关性,通过结构化半可分矩阵的各种分解,我们开发了一个理论连接的丰富框架,证明了这些模型家族之间的联系。基于我们的 state space duali - 通过分解位置向量探索大型语言模型的上下文窗口
通过分析位置向量对注意力的形成和影响,我们设计了两种无需训练的上下文窗口扩展方法,即位置向量替换和注意力窗口扩展。实验结果表明,我们的方法可以有效地扩展上下文窗口的长度。
- 注意力作为一个 RNN
Transformers 在序列建模中取得了重大突破,但计算开销较大,本文提出了一种新的高效计算 attention 的方法,引入了名为 Aaren 的 attention-based 模块,使其能够像 Transformers 一样并行训 - 通过脑机接口建模用户偏好
使用脑机接口(BCI)技术研究用户的注意力、认知和情感状态,推导用户偏好以及与视觉内容的关联,并将其应用于信息检索、生成模型的个性化控制以及群体情感估计。
- CVPRATOM: 高效数据集提炼的关注力混合器
利用 ATtentiOn Mixer (ATOM) 模块在特征匹配过程中使用混合的通道和空间注意力,以有效地精炼大型数据集,从而在各种计算机视觉数据集中展现出卓越的性能。
- CVPRCA-Stream: 基于注意力池化的可解释图像识别
基于 transformer 架构的注意力机制与交叉注意力流 (Cross-Attention Stream) 相结合,能提高模型的可解释性并保持识别性能。
- 2024 年自然语言、人工智能和量子计算:在量子自然语言处理中的研究成分和方向
量子自然语言处理领域的现状和技术发展,介绍了量子设计在文本编码方面的新方法,并探讨了语言中的概念表达和场景幻觉问题与量子力学的关系。
- 图像在第二层之后价值为 1/2 令牌:大型视觉语言模型的即插即用推理加速
通过学习自适应注意力模式和精简视觉标记,FastV 可显著降低计算成本并在各种图像和视频理解任务中保持优秀性能,有助于在边缘设备和商业模型中部署大规模视觉 - 语言模型。
- HyenaPixel:基于卷积的全局图像上下文
使用基于卷积的 Hyena 注意力替代方法,在图像分类中实现竞争力的 ImageNet-1k top-1 准确率,同时超过其他大核网络,并结合注意力进一步提高准确性。
- 稀疏和结构化 Hopfield 网络
利用 Fenchel-Young 损失函数,我们提出了一种稀疏 Hopfield 网络的统一框架,该网络与 transformers 中的 attention 有关,通过端到端可微分的稀疏变换实现更新规则,进而揭示了损失边界、稀疏性和准确内 - 双向交叉注意力变换器感知更长的序列
利用新颖的双向 Transformer 架构(BiXT),可以线性地扩展输入尺寸,以计算成本和内存消耗为代价,但不会出现其他高效 Transformer 方法中的性能下降或仅限制于一种输入模式的问题。
- 图形遮罩注意力即可
提出了一种基于注意力机制的学习图表的简单替代方法,被称为图形掩码注意力(MAG),在长距离任务上具有最先进的性能,并在超过 55 个节点和图级任务中优于强大的信息传递基线和复杂的注意力方法。与图神经网络相比,显示了显着更好的迁移学习能力,并 - ACL问答系统在上下文使用中的期望
我们的研究针对现有的基于上下文的问答系统中存在的一系列问题,包括在模型参数知识与上下文冲突时缺乏对上下文的关注、对噪声的鲁棒性不足以及答案不一致性等。通过总结之前的一些已讨论过的以及新颖的需求,系统地评估了 15 个问答系统在 5 个数据集 - 结合卫星和气象数据进行作物类型地图绘制:一种逆向建模方法
用天气和卫星影像结合的逆模型方法,提出了一种深度学习模型 WSTATT,能够精确生成农田作物分布地图,具有较传统方法更好的预测效果和提前五个月预测作物类型的能力,评估结果与作物表现学相一致。
- 表格数据的注意力对比学习 - 数据中心的基准测试
通过对 28 个表格数据集的广泛评估,本文介绍了在传统深度学习与机器学习基线上,在各个表格数据集上实现卓越性能的注意力和对比学习方法,以促进该领域的进一步发展。
- 动物学:在高效语言模型中测量和提高回忆率
我们研究了无需注意力的语言模型,结合了门控和卷积的方法,发现在上下文角色联想回忆方面,注意力模型优于门控卷积模型。通过开发一项新的任务形式,多查询角色联想回忆(MQAR),我们证明了注意力和门控卷积模型之间参数效率的差异,并提出了输入相关的 - KDD带时序注意力图神经网络的精确组合优化
通过替换启发式成分,结合机器学习算法的时间特征与注意力机制,优化了组合优化求解器在变量选择方面的性能。
- Transformer 神经网络架构中注意力机制的缩放点积的替代方法
通过除以键值长度之和而非平方根,我们提出了一种替代方法来缩放点积,以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示,这种方法在许多情况下更有效。