用于长文本建模的循环注意力网络
本文提出了一种新的强化自注意力(ReSA)模型,它将软注意力和硬注意力结合在一起,通过引入强化序列采样(RSS)和奖励信号,有效且高效地提取长句子中的稀疏依赖关系,且在 SNLI 和 SICK 数据集上达到最优表现。
Jan, 2018
本文提出了一种局部自注意力机制,用于解决检索过程中考虑前 n 个单词导致系统检索长文档时出现偏差的问题,并在 TREC 2019 深度学习排行榜任务上取得了显著的检索质量提升。
May, 2020
本文探讨了卷积网络、自注意力网络和循环神经网络在神经机器翻译中的表现。研究发现,自注意力网络和卷积网络在语义特征提取方面表现更好,但在长距离依赖性分析中没有超越循环神经网络。
Aug, 2018
本文提出一种基于双重 RNN 和多头注意力网络(MAT)的直观双流递归关注网络(DualRAN),该模型旨在解决情感对话(ERC)任务中建模上下文的难题,能够更有效地捕获全局和局部背景信息。实验结果表明 DualRAN 模型优于所有基线,并且每个组件的有效性得到了深入的证明。
Jul, 2023
研究聊天机器人中的多轮对话应答生成,提出一种基于分层循环注意力网络的方法,该方法使用单词级别和语句级别的注意机制来捕捉对话上下文中重要部分,能够明显优于现有的多轮应答生成模型。
Jan, 2017
提出了一种基于编码器 - 解码器和 RNN 的自注意力神经网络模型,通过组合监督和强化学习来训练和生成连贯性和可读性更强的长文摘要,与目前最先进模型相比,在 CNN / Daily Mail 数据集上取得了 41.16 的 ROUGE-1 得分,并且人工评估表明我们的模型产生了更高质量的摘要。
May, 2017
本文提出了一种双向块自注意力网络 (Bi-BloSAN) 来进行 RNN/CNN-free 序列编码,用于解决 RNN/CNN/SAN 的时间效率和内存开销问题,并在 NLP 任务中取得了最新水平的表现。
Apr, 2018
本文探讨了使用自注意网络 (Self-Attention Networks) 进行情感分析的有效性,发现相较于循环神经网络 (RNNs) 和卷积神经网络 (CNNs),使用自注意网络在分类准确率、训练速度和内存消耗方面表现优越,并研究了多头注意力和序列位置信息等方面的改进效果。
Dec, 2018
本篇论文介绍了一种新颖的卷积自注意力网络,通过引入多头注意力机制,加强了邻近元素之间的依赖关系,并能够对各个注意力头提取的特征之间的交互进行建模,用于机器翻译任务中能有效提高自注意力网络的本地性,实验证明该方法优于常用的 Transformer 模型和其他已有的模型,并且没有更多的额外参数。
Apr, 2019