关注的数学理论
通过研究自注意力的局部李普希茨常数,本文在测度论框架下改进了先前的结果,从理论角度探讨了 Transformer 和多头注意力机制在神经网络的鲁棒性问题,并发现高局部李普希茨常数的测度通常由少数的狄拉克函数组成,且质量分布不均衡。此外,本文还分析了自注意力在改变令牌数的扰动下的稳定性,发现在某些输入情况下,复制令牌的攻击比仅移动令牌的攻击效果更好,称之为质量分裂现象。
Dec, 2023
本文提出一种统一的注意力机制模型,针对自然语言处理领域中基于文本数据向量表示的注意力机制的四个维度进行了分类。本文通过举例说明如何在注意力模型中利用先前信息,并讨论了该领域正在进行的研究工作和开放性挑战。这是该领域中广泛文献的首次广泛分类。
Feb, 2019
该综述旨在提供一种全面的神经注意力模型开发和应用的现状和趋势的分析,系统回顾了数百种注意力模型的体系结构和应用,特别关注于卷积网络、循环网络和生成模型,描述了其在不同应用领域和神经网络可解释性上的影响。
Mar, 2021
我们引入一种范畴论的图示形式,以系统性地关联和推理机器学习模型。我们的图示以直观但不丢失关键细节的方式呈现架构,其中模型之间的自然关系通过图形变换捕捉,并且重要的差异和相似之处一目了然。在本文中,我们着重于注意力机制:将民间传说转化为数学推导,并在文献中构建了一个注意力变体的分类学。作为我们形式主义支持下的经验研究的第一个例子,我们识别了注意力的重复解剖组成部分,我们全面重组它们以探索注意力机制的变化空间。
Jul, 2024
本文系统总结了注意力模型在神经网络中的应用、发展及其影响。该文提出了一种分类系统,系统地讨论应用、体系结构和注意力在提高神经网络可解释性方面的作用,同时探讨未来关于注意力的研究方向。
Apr, 2019
本研究探讨了自注意力模型的 Lipschitz 常数,并提出了一种 L2 自注意力模型来代替标准点积自注意力模型,同时推导出了 L2 自注意力模型的 Lipschitz 常数上限,并证明了其在实践中的可行性和实用性,包括用于字符级别语言建模的 Transformer-based 架构。
Jun, 2020