softmax attention | BriefGPT

关键词softmax attention

搜索结果 - 14

自校正的理论认识与上下文对齐
基于一种类似于对齐任务的简化设置，我们从上下文学习的角度对自我纠正进行理论分析，显示出大语言模型通过给予相对准确的自我检查作为奖励，能够以上下文的方式改进响应。我们的理论构建突破了之前关于过于简化的线性变换器的理论，阐述了现实变换器的几个关
PDFa month ago
理解基础模型的区别：注意力、状态空间模型和循环神经网络
基于动力系统框架的行为比较研究中，研究了基于 softmax attention、linear attention、State Space Models (SSMs) 和 Recurrent Neural Networks (RNNs) 的
PDFa month ago
大规模语言模型的线性化
通过线性变压器架构，降低预训练成本，提出了一种代价效益较高的线性变压器预训练方法 SUPRA，并在标准基准测试中取得了竞争性的性能。
PDF2 months ago
Transformer 在屏蔽图像建模中证明能够学习特征 - 位置相关性
本文提供了首个关于 MIM 自监督预训练中使用 softmax 注意力的一层 transformer 的端到端理论，旨在解释 transformer 的理论机制，并分析其训练动态，以同时考虑输入和位置嵌入，在数据分布中产生局部和多样化的注意
PDF4 months ago
基于 Transformer 的上下文学习：Softmax 注意力适应函数的 Lipschitz 特性
在隐含背景数据的推断过程中，探索了 softmax 注意力机制在回归任务中的作用，发现注意力单元通过学习窗口，可以适应不同的预训练任务，并随着 Lipschitz 性质降低和标签噪声增加而扩大，同时对于低秩线性问题，注意力单元可以在推断之前
PDF4 months ago
多头注意力在上下文线性回归中的优势
我们在研究中心比较了 transformer 中 softmax attention 在上下文学习和线性回归任务中的性能，理论分析表明具有较大嵌入维度的多头注意力优于单头注意力，当上下文示例的数量增加时，使用单头 / 多头注意力的预测损失为
PDF5 months ago
闪电关注 - 2：在大型语言模型中处理无限序列长度的免费午餐
该论文介绍了 Lightning Attention-2，首个能实现线性注意力的理论计算优势的线性注意力实现方法，通过利用平铺技术和 GPU 硬件，充分发挥其在不同模型尺寸和序列长度上的训练和推理速度的一致性，并且比其他注意力机制更快。
PDF6 months ago
上下文收敛的 Transformer 模型
通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。
PDF9 months ago
少即是多：优化语言翻译的精简架构
研究使用 KgV 提出了一种结合了 sigmoid 门控机制和 softmax 注意力机制的模型框架，同时采用张量链来减少嵌入层的超参数，并引入了 H-SoftPOS 当作嵌入层，相较于现有技术在性能和内存成本方面都有显著提高，并命名该体系
PDFa year ago
BiViT: 二值化视觉转换器的极度压缩
本研究提出了针对视觉 Transformers 的二值化方法，其中包括了对 softmax attention 的优化，采用 Cross-layer Binarization 和引入可学习的通道缩放因子等技巧，最终实现了在 TinyImag
PDF2 years ago
高效 Transformer 及其扩展的神经架构搜索
本文采用神经架构搜索技术，提出了一种优化 Transformer 架构的新框架，以增强其效率，并通过机器翻译和图像分类任务进行验证。实验表明，优化后的 Transformer 架构在计算效率方面得到提升，但与标准 Transformer 相
PDF2 years ago
你的 Transformer 可能没有你期望的那么强大
本文针对基于相对位置编码的 Transformer 模型展开数学分析，证明了其并不是一种完全可逼近连续的序列转序列函数的神经网络，但是提出了满足一定条件的新型注意力机制 URPE 并在多个任务上进行了实验，证明了其在参数效率和性能上均超过了
PDF2 years ago
ICML线性复杂度随机自注意力机制
本文提出了一种基于自归一化重要性采样器的线性随机化注意力机制，结合了随机特征关注性的表达性和计算效率，能够以线性时间和空间复杂度近似整个 softmax 注意力，与随机特征关注性相比，具有很大的性能优势。
PDF2 years ago
ICLRcosFormer: 重新思考注意力机制中的 Softmax
本文提出了一种线性可替换 softmax attention 的转换器 ——cosFormer，通过线性操作和余弦基础距离重新加权机制，保证了注意矩阵非负性和分布可以集中，并在语言建模和文本理解任务中取得了很好的效果。
PDF2 years ago