抽象化摘要中的推理时间内容选择的注意力头掩蔽

ACLApr, 2021

抽象化摘要中的推理时间内容选择的注意力头掩蔽

Attention Head Masking for Inference Time Content Selection in Abstractive Summarization

Shuyang Cao, Lu Wang

TL;DR本研究提出了一种简单而有效的关注头屏蔽技术，应用于编码器 - 解码器注意力以确定推断时显着的内容，对三个摘要数据集进行了演示，证明了其在数据效率和性能上的优越性。

Abstract

How can we effectively inform content selection in Transformer-based abstractive summarization models? In this work, we present a simple-yet-effective →

abstractive summarization attention head masking encoder-decoder attentions content selection document summarization

发现论文，激发创造

人类引导下解释性注意力模式在摘要和主题分割中的应用

该论文介绍了一种结合人机交互的流程来发现重要的任务特定的注意力模式，然后注入到原始模型和较小的模型来提高模型的准确性与效率，取得了在提取式摘要和主题分割方面显著提高的结果。

Dec, 2021

总结系统编码器 - 解码器注意力中的稀疏性和句子结构

研究表明摘要任务中有稀疏的句子结构，可以用部分输入句子来限制编码器 - 解码器注意机制，并保持系统性能。

Sep, 2021

深度强化学习模型用于摘要生成

提出了一种基于编码器 - 解码器和 RNN 的自注意力神经网络模型，通过组合监督和强化学习来训练和生成连贯性和可读性更强的长文摘要，与目前最先进模型相比，在 CNN / Daily Mail 数据集上取得了 41.16 的 ROUGE-1 得分，并且人工评估表明我们的模型产生了更高质量的摘要。

May, 2017

摘要文档生成的注意力优化

该论文提出了一种基于序列到序列的文档摘要模型中的注意力机制改进方法，结合局部方差损失和全局方差损失分别从局部和全局方面增强注意力的监督，并在 CNN/Daily Mail 数据集上验证了其有效性。

Oct, 2019

缓解神经机器翻译中注意力头不平等

本篇论文研究表明 Transformer 中的注意力头并不相等，为解决这个问题，提出了 HeadMask 方法，在多个语言对中实现了翻译改进。

Sep, 2020

基于课程指导的抽象摘要

本文提出两个方法以弥补 Transformer-based summarization 模型在内容选择方面表现不佳和训练策略效率不高的缺陷，使得模型可以更好的理解要点，同时引入课程学习的方法提高了训练速度和质量，并用 Reddit TIFU 数据集和其他三个跨领域总结测量我们的模型的有效性，同时进行了人类评估表明所提出的方法在流畅性、信息量和整体质量等质量标准上具有良好的效果。

Feb, 2023

抽象化摘要中的多头注意力理解

本文研究了适用于抽象总结的多头自注意机制的可解释性，介绍了三个度量衡来评估关注头的重要性，发现相对位置的头对总结表现至关重要，不建议弃掉，而强制稀疏性似乎不能显着提高可解释性。

Nov, 2019

挑选未充分利用的头部：关注网络修剪对于融合对话指代信息的头部选择的视角

通过网络修剪的角度，研究了一种特征注入的注意头选择和操作策略，并在对话摘要中进行了案例研究，结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。

Dec, 2023

Transformer 注意力头对抽象摘要提供透明度吗？

通过分析 transformer 中 attention heads 的分布，我们探讨了并提出一种方法来评估 Transformer 模型特定 attention distributions 的依赖程度，从而讨论了使用注意分布作为可解释性手段的含义。在某些 attention heads 确实专门用于句法和语义不同的输入的基础上，我们提出了一种贡献方式，以提高其可解释性，这对于所有 NLP 任务是否有效等进行了讨论。

Jul, 2019

带有结构注意力的神经抽象摘要

本文提出了一种基于结构化注意力的分层编码器，用于建模句内和文档间相互依赖关系，在多文档摘要生成任务中表现出显著的改进，击败了现有的模型。

Apr, 2020