关键词scaled dot-product attention
搜索结果 - 5
- 逆距离加权注意力
替换尺度点积注意力为负欧氏距离对网络产生了影响,简化成距离倒数加权插值;在简单单隐藏层网络上训练,使用标准交叉熵损失,倾向于生成包含原型的关键矩阵和相应逻辑回归的值矩阵;同时,我们还展示其结果可通过人工构建的原型增加特殊情况的处理能力,形成 - 层叠注意力:提高 Transformer 模型对层次模式建模的能力
我们提出了堆栈注意力:一种集成堆栈的注意力操作符,其灵感来源于堆栈与上下文无关语言(CFLs)的理论联系,以解决标准注意力无法识别某些句法结构的局限性。我们提出了两种变种:一种与确定性下推自动机(PDAs)相关,一种基于非确定性 PDAs, - 复数变压器架构的建立模块
该论文旨在将深度学习直接应用于复值信号,提出了建立在变形器结构上的复值神经网络构建模块,并通过在 MusicNet 数据集上进行分类和序列生成任务的测试表明了该模型对于过拟合有更好的鲁棒性,同时维持了与实数传输器的性能相当水平。
- 连续变压器:用于在线推理的无冗余注意力
本文提出了基于新型 Scaled Dot-Product Attention 的连续输入流上的在线逐标记推断的 Continual Transformer Encoder,通过实验证明该算法在保持预测性能的情况下,可将每次预测的浮点运算次数 - CVPR动作修饰语:从教学视频中学习副词
通过伴随的叙述语的弱监督学习,提出了一种学习广告副词表示的方法,使用缩放点积注意力从指导视频中学习,并联合学习广告副词作为反演变换。实验结果表明,该方法在视频到副词检索方面的表现优于所有基线。