用于长文本建模的循环注意力网络

Jun, 2023

用于长文本建模的循环注意力网络

Recurrent Attention Networks for Long-text Modeling

Xianming Li, Zongxi Li, Xiaotian Luo, Haoran Xie, Xing Lee...

TL;DR本文提出了一种新型深度学习神经网络 RAN，采用自注意力机制和递归结构相结合的方法，实现了在长文本处理中的可重复性操作，对文本进行建模提取全局语义信息，并能兼容顺序和分类任务。实验结果表明，RAN 模型具有出色的编码能力，适用于长文本语义的自动提取和处理。

Abstract

self-attention-based models have achieved remarkable progress in short-text mining. However, the quadratic computational complexities restrict their application in long text processing. Prior works have adopted the chunking strategy to divide long documents into chunks and stack a

self-attention long-text processing recurrent attention network global semantics sequential and classification tasks

发现论文，激发创造

强化自注意力网络：硬注意力和软注意力的序列建模混合体

本文提出了一种新的强化自注意力（ReSA）模型，它将软注意力和硬注意力结合在一起，通过引入强化序列采样（RSS）和奖励信号，有效且高效地提取长句子中的稀疏依赖关系，且在 SNLI 和 SICK 数据集上达到最优表现。

Jan, 2018

对长文本进行的本地自注意力机制以提高文档检索效率

本文提出了一种局部自注意力机制，用于解决检索过程中考虑前 n 个单词导致系统检索长文档时出现偏差的问题，并在 TREC 2019 深度学习排行榜任务上取得了显著的检索质量提升。

May, 2020

自注意力机制的优势：神经机器翻译结构的定向评估

本文探讨了卷积网络、自注意力网络和循环神经网络在神经机器翻译中的表现。研究发现，自注意力网络和卷积网络在语义特征提取方面表现更好，但在长距离依赖性分析中没有超越循环神经网络。

Aug, 2018

一种融合全局 - 局部感知的双流重复 - 注意力网络，用于情感识别的文本对话

本文提出一种基于双重 RNN 和多头注意力网络（MAT）的直观双流递归关注网络（DualRAN），该模型旨在解决情感对话（ERC）任务中建模上下文的难题，能够更有效地捕获全局和局部背景信息。实验结果表明 DualRAN 模型优于所有基线，并且每个组件的有效性得到了深入的证明。

Jul, 2023

分层循环注意力网络用于生成回复

研究聊天机器人中的多轮对话应答生成，提出一种基于分层循环注意力网络的方法，该方法使用单词级别和语句级别的注意机制来捕捉对话上下文中重要部分，能够明显优于现有的多轮应答生成模型。

Jan, 2017

深度强化学习模型用于摘要生成

提出了一种基于编码器 - 解码器和 RNN 的自注意力神经网络模型，通过组合监督和强化学习来训练和生成连贯性和可读性更强的长文摘要，与目前最先进模型相比，在 CNN / Daily Mail 数据集上取得了 41.16 的 ROUGE-1 得分，并且人工评估表明我们的模型产生了更高质量的摘要。

May, 2017

带有结构注意力的神经抽象摘要

本文提出了一种基于结构化注意力的分层编码器，用于建模句内和文档间相互依赖关系，在多文档摘要生成任务中表现出显著的改进，击败了现有的模型。

Apr, 2020

快速、存储效率高的序列建模的双向块自注意力

本文提出了一种双向块自注意力网络 (Bi-BloSAN) 来进行 RNN/CNN-free 序列编码，用于解决 RNN/CNN/SAN 的时间效率和内存开销问题，并在 NLP 任务中取得了最新水平的表现。

Apr, 2018

自注意力：情感分析神经网络分类器的更好构建块

本文探讨了使用自注意网络 (Self-Attention Networks) 进行情感分析的有效性，发现相较于循环神经网络 (RNNs) 和卷积神经网络 (CNNs)，使用自注意网络在分类准确率、训练速度和内存消耗方面表现优越，并研究了多头注意力和序列位置信息等方面的改进效果。

Dec, 2018

卷积自注意力网络

本篇论文介绍了一种新颖的卷积自注意力网络，通过引入多头注意力机制，加强了邻近元素之间的依赖关系，并能够对各个注意力头提取的特征之间的交互进行建模，用于机器翻译任务中能有效提高自注意力网络的本地性，实验证明该方法优于常用的 Transformer 模型和其他已有的模型，并且没有更多的额外参数。

Apr, 2019