基于分层注意力网络的在线论坛讨论摘要提取

May, 2018

基于分层注意力网络的在线论坛讨论摘要提取

Toward Extractive Summarization of Online Forum Discussions via Hierarchical Attention Networks

Sansiri Tarnpradab, Fei Liu, Kien A. Hua

TL;DR本研究首次尝试使用分层注意力网络进行论坛帖子的总结，并使用神经注意力机制创建句子和主题表示形式，其结果表明，采用冗余剔除的方法能够提高论坛帖子总结的效果。

Abstract

Forum threads are lengthy and rich in content. Concise thread summaries will benefit both newcomers seeking information and those who participate in the discussion. Few studies, however, have examined the task of forum thread →

forum thread summarization neural attention mechanism hierarchical attention network redundancy removal

发现论文，激发创造

关注开头：使用双向注意力进行摘要提取的研究

本文提出使用双向注意机制，关注讨论帖子中的开头（初始评论 / 帖子），可以引入一致的 ROUGE 分数提升，并在论坛讨论数据集上引入新的 ROUGE 分数的最新技术，同时发现此假设是否可扩展到其他通用形式的文本数据，通过考虑文本中前几句话，关注开头句，使用双向注意机制可以让摘要提取模型在更通用的文本数据上性能得到提升。

Feb, 2020

长篇讨论的指示性摘要

使用大型语言模型生成指示性摘要对长时间讨论进行归纳总结，并通过用户研究证明其作为导航工具的便捷性。

Nov, 2023

EmailSum：邮件串抽象概括

研究开发了一个抽象的邮件线索摘要数据集（EmailSum），并进行了广泛实证研究探索不同的摘要技术，结果发现当前抽象摘要模型存在理解发件人意图和识别发件人和收件人角色的挑战，并且 ROUGE 和 BERTScore 等自动评估指标与人类评价之间的相关性较弱。

Jul, 2021

一种论述感知的长文本抽象摘要关注模型

本文提出了一种针对单个较长文档（如研究论文）进行抽象概括的模型，采用新的分层编码器对文章进行语篇结构建模，并运用有意识的编码器生成摘要，实验证明该模型显著优于现有模型。

Apr, 2018

TANet: 针对抽象对话摘要的线程感知预训练

在 NLP 领域中，尽管预训练语言模型（PLMs）取得了巨大的成功，并成为了一个里程碑，但抽象对话摘要仍然是一个具有挑战性但研究较少的任务。本文中，作者们通过在 Reddit 社区中的多人讨论中构建一个大规模（11M）的预训练数据集 RCS，提出了 TANet，一个基于 Transformer 的网络，借助线程感知的关注机制和线程预测损失函数，有效地解决目前模型的局限性，取得了新的最优效果。

Apr, 2022

带有结构注意力的神经抽象摘要

本文提出了一种基于结构化注意力的分层编码器，用于建模句内和文档间相互依赖关系，在多文档摘要生成任务中表现出显著的改进，击败了现有的模型。

Apr, 2020

长篇科学文档的基于话语的无监督摘要

本文提出了一种基于无监督的基于图的排名模型，用于提取科学文献的摘要。我们的方法假定源文档采用两级分层图表示，并利用不对称的位置提示来确定句子的重要性。在 PubMed 和 arXiv 数据集上的结果表明，我们的方法在自动指标和人工评价方面优于强无监督基线。此外，其性能与许多基于监督学习的方法相当。这些结果表明，篇章结构中的模式是确定科学文章重要性的强有力信号。

May, 2020

面向主题的指针生成网络用于口语对话摘要

为了更好地总结对话内容，我们提出了一种基于主题感知结构的指针生成器模型，该模型在使用具有层次结构的主题信息进行适应的同时，在提取和生成方面展现了卓越的性能。

Oct, 2019

ConvoSumm: 对话摘要基准以及通过论证挖掘改进的抽象式摘要

本研究通过设计 Annotation Protocols 并使用 Argument Mining 技术，基于网络上不同形式的讨论为标准数据集，比较了各种先进的对话总结模型，在自动和人工评估中均取得了较高的结果。

Jun, 2021

层次自注意力网络的主题识别

提出了一种层次模型，带有自我关注的话题识别技术，并在线性可扩展语料库上的实验证明了其在话题识别和文本分类方面的优异性能。

Apr, 2019