attention | BriefGPT - AI 论文速递

关键词attention

搜索结果 - 180

Transformer 规范化层与语义子空间的独立性
传统的预归一化（Pre-Norm）方法在 transformer 模型中引入线性子空间干扰，导致电路塌陷现象；相比之下，将归一化操作放在注意力头的线性操作之后（QKV-Norm）能更好地保持表示的稳定性。
PDF7 days ago
注意力指令：通过提示增强中间的注意力
扩展大型语言模型的上下文窗口到 128k 个标记或更多，然而，语言模型仍然存在位置偏见和难以使用上下文的中间部分的问题，我们通过指导语言模型分配更多的关注于选定的上下文片段来研究 LLM 的相对位置感知性和缓解不均衡关注的可行性，我们对基于
PDF8 days ago
ICML变压器是 SSM：通过结构化状态空间对偶实现的广义模型和高效算法
Transformers 与 state-space models（包括 Mamba）存在相关性，通过结构化半可分矩阵的各种分解，我们开发了一个理论连接的丰富框架，证明了这些模型家族之间的联系。基于我们的 state space duali
PDFa month ago
通过分解位置向量探索大型语言模型的上下文窗口
通过分析位置向量对注意力的形成和影响，我们设计了两种无需训练的上下文窗口扩展方法，即位置向量替换和注意力窗口扩展。实验结果表明，我们的方法可以有效地扩展上下文窗口的长度。
PDFa month ago
注意力作为一个 RNN
Transformers 在序列建模中取得了重大突破，但计算开销较大，本文提出了一种新的高效计算 attention 的方法，引入了名为 Aaren 的 attention-based 模块，使其能够像 Transformers 一样并行训
PDFa month ago
通过脑机接口建模用户偏好
使用脑机接口（BCI）技术研究用户的注意力、认知和情感状态，推导用户偏好以及与视觉内容的关联，并将其应用于信息检索、生成模型的个性化控制以及群体情感估计。
PDF2 months ago
CVPRATOM: 高效数据集提炼的关注力混合器
利用 ATtentiOn Mixer (ATOM) 模块在特征匹配过程中使用混合的通道和空间注意力，以有效地精炼大型数据集，从而在各种计算机视觉数据集中展现出卓越的性能。
PDF2 months ago
CVPRCA-Stream: 基于注意力池化的可解释图像识别
基于 transformer 架构的注意力机制与交叉注意力流 (Cross-Attention Stream) 相结合，能提高模型的可解释性并保持识别性能。
PDF2 months ago
2024 年自然语言、人工智能和量子计算：在量子自然语言处理中的研究成分和方向
量子自然语言处理领域的现状和技术发展，介绍了量子设计在文本编码方面的新方法，并探讨了语言中的概念表达和场景幻觉问题与量子力学的关系。
PDF3 months ago
图像在第二层之后价值为 1/2 令牌：大型视觉语言模型的即插即用推理加速
通过学习自适应注意力模式和精简视觉标记，FastV 可显著降低计算成本并在各种图像和视频理解任务中保持优秀性能，有助于在边缘设备和商业模型中部署大规模视觉 - 语言模型。
PDF4 months ago
HyenaPixel：基于卷积的全局图像上下文
使用基于卷积的 Hyena 注意力替代方法，在图像分类中实现竞争力的 ImageNet-1k top-1 准确率，同时超过其他大核网络，并结合注意力进一步提高准确性。
PDF4 months ago
稀疏和结构化 Hopfield 网络
利用 Fenchel-Young 损失函数，我们提出了一种稀疏 Hopfield 网络的统一框架，该网络与 transformers 中的 attention 有关，通过端到端可微分的稀疏变换实现更新规则，进而揭示了损失边界、稀疏性和准确内
PDF4 months ago
双向交叉注意力变换器感知更长的序列
利用新颖的双向 Transformer 架构（BiXT），可以线性地扩展输入尺寸，以计算成本和内存消耗为代价，但不会出现其他高效 Transformer 方法中的性能下降或仅限制于一种输入模式的问题。
PDF4 months ago
图形遮罩注意力即可
提出了一种基于注意力机制的学习图表的简单替代方法，被称为图形掩码注意力（MAG），在长距离任务上具有最先进的性能，并在超过 55 个节点和图级任务中优于强大的信息传递基线和复杂的注意力方法。与图神经网络相比，显示了显着更好的迁移学习能力，并
PDF5 months ago
ACL问答系统在上下文使用中的期望
我们的研究针对现有的基于上下文的问答系统中存在的一系列问题，包括在模型参数知识与上下文冲突时缺乏对上下文的关注、对噪声的鲁棒性不足以及答案不一致性等。通过总结之前的一些已讨论过的以及新颖的需求，系统地评估了 15 个问答系统在 5 个数据集
PDF5 months ago
结合卫星和气象数据进行作物类型地图绘制：一种逆向建模方法
用天气和卫星影像结合的逆模型方法，提出了一种深度学习模型 WSTATT，能够精确生成农田作物分布地图，具有较传统方法更好的预测效果和提前五个月预测作物类型的能力，评估结果与作物表现学相一致。
PDF5 months ago
表格数据的注意力对比学习 - 数据中心的基准测试
通过对 28 个表格数据集的广泛评估，本文介绍了在传统深度学习与机器学习基线上，在各个表格数据集上实现卓越性能的注意力和对比学习方法，以促进该领域的进一步发展。
PDF6 months ago
动物学：在高效语言模型中测量和提高回忆率
我们研究了无需注意力的语言模型，结合了门控和卷积的方法，发现在上下文角色联想回忆方面，注意力模型优于门控卷积模型。通过开发一项新的任务形式，多查询角色联想回忆（MQAR），我们证明了注意力和门控卷积模型之间参数效率的差异，并提出了输入相关的
PDF7 months ago
KDD带时序注意力图神经网络的精确组合优化
通过替换启发式成分，结合机器学习算法的时间特征与注意力机制，优化了组合优化求解器在变量选择方面的性能。
PDF7 months ago
Transformer 神经网络架构中注意力机制的缩放点积的替代方法
通过除以键值长度之和而非平方根，我们提出了一种替代方法来缩放点积，以避免在应用 softmax 时导致梯度消失的区域。我们使用模拟的键和查询显示，这种方法在许多情况下更有效。
PDF8 months ago