本文介绍了使用变分推断方法学习序列任务的困难注意力,在干净和嘈杂环境中的语音识别任务中,该方法表现出了比 REINFORCE 更好的效果。
May, 2017
关注模型有三种不同的潜在变量边际可能性(LVML):软关注、硬关注和软关注损失。我们观察到使用这些范例学到的模型具有独特的特征,并且提出了一种简单的混合方法,结合了不同损失函数的优点。
Jul, 2023
本研究提供详细分析和比较注意力和传统对齐,在一些情况下表明注意力不同于对齐且能捕捉除对齐以外的有用信息。
Oct, 2017
本文提出了一种变分注意力机制来避免变分编码器 - 解码器中的未被注意模型绕过,并在增加生成语句的多样性的同时不降低其质量。
Dec, 2017
本研究提出了一种可解释的方法,能够可视化神经网络中的内在机制和其对输出的影响,从而提高了深度神经网络的可解释性和决策过程,研究的主要贡献是提出了一种数据集中心的算法,适用于多个领域的深度神经网络结构。
Jun, 2017
本论文研究了注意力机制在神经机器翻译中生成对齐的问题,并从重新排序方面分析和解释了这个问题。提出了一种受传统对齐模型指导学习的监督注意力机制,实验表明,这种机制比标准注意力机制产生更好的对齐效果,并且在中英文翻译任务中均有显著提高。
Sep, 2016
本文提出了一种基于梯度的注意力机制技术,用于解释变分自编码器(VAE)及其预测,该技术通过生成学习到的潜在空间的视觉注意力,可用于图像中异常的定位,并能融入模型训练来帮助改善潜在空间分解,这在 MVTec-AD 和 Dsprites 数据集上表现出了最先进的性能。
Nov, 2019
在传统的 transformer 模型中,标准的 attention 机制的时间复杂度随着序列的长度呈二次方增长。本研究提出了一种基于潜在向量定义注意力的方法,将时间复杂度降低为随序列长度线性增长。我们的 “Latte Transformer” 模型可以在双向和单向任务中使用,通过因果版本可以实现在推理过程中进行语言生成任务的记忆和时间高效的循环实现。与标准 transformer 相比,标准的下一个记号预测的时间复杂度与序列长度成线性关系,而 Latte Transformer 只需常数时间计算下一个记号。我们方法的实证表现与标准 attention 相当,但允许在标准 attention 不可行的背景窗口范围内进行扩展。
Feb, 2024
提出一种基于 Transformer 架构的简单模型扩展,利用其隐藏表示,仅限于对编码器信息进行注意以预测下一个单词,进一步介绍了一种新的对齐推断过程,直接将目标词的注意力激活率优化为对齐结果,这种对齐方法在两个公开数据集上明显优于 naive 方法,并且与 Giza++ 相当。
Jan, 2019
本文提出贝叶斯关注置信网络并将其应用于多种任务中,相较于确定性和其他基于 stochastic attention 的模型,其在准确性、不确定性估计等指标上均更优。同时,这种方法还可用于调整其他基于 deterministic attention 的预训练模型,展现了广泛的应用潜力。
Jun, 2021