TANet: 针对抽象对话摘要的线程感知预训练

ACLApr, 2022

TANet: 针对抽象对话摘要的线程感知预训练

TANet: Thread-Aware Pretraining for Abstractive Conversational Summarization

Ze Yang, Liran Wang, Zhoujin Tian, Wei Wu, Zhoujun Li

TL;DR在 NLP 领域中，尽管预训练语言模型（PLMs）取得了巨大的成功，并成为了一个里程碑，但抽象对话摘要仍然是一个具有挑战性但研究较少的任务。本文中，作者们通过在 Reddit 社区中的多人讨论中构建一个大规模（11M）的预训练数据集 RCS，提出了 TANet，一个基于 Transformer 的网络，借助线程感知的关注机制和线程预测损失函数，有效地解决目前模型的局限性，取得了新的最优效果。

Abstract

Although pre-trained language models (PLMs) have achieved great success and become a milestone in NLP, abstractive conversational summarization remains a challenging but less studied task. The difficulty lies in

pre-trained language models conversational summarization rcs tanet thread-aware attention

发现论文，激发创造

基于课程指导的抽象摘要

本文提出两个方法以弥补 Transformer-based summarization 模型在内容选择方面表现不佳和训练策略效率不高的缺陷，使得模型可以更好的理解要点，同时引入课程学习的方法提高了训练速度和质量，并用 Reddit TIFU 数据集和其他三个跨领域总结测量我们的模型的有效性，同时进行了人类评估表明所提出的方法在流畅性、信息量和整体质量等质量标准上具有良好的效果。

Feb, 2023

使用预训练模型的抽象文本摘要分析

本文评估了不同预训练模型在不同数据集上的文本摘要效果，通过 ROUGE 和 BLEU 指标比较了三种不同预训练模型在 CNN-dailymail、SAMSum 和 BillSum 三个数据集上的性能表现。

Feb, 2023

使用伪重述的方式进行后训练对话摘要

该论文提出了一种基于预训练语言模型转换对话到叙述语言的技术，利用此技术可以显著提高对话摘要的性能，而且具有低的实施成本。

Apr, 2022

基于通道感知的多轮对话理解解耦网络

本文提出了一种组合学习方法，进一步超越了预先训练的语言模型，以捕捉涉及对话历史的话语感知和说话人感知等表示。通过使用 Transformer-based PrLM 的 masking 机制，将每个单词分别聚焦在当前话语，其他话语和两种说话人角色（即发送者话语和接收者话语）上，有效区分上下文信息。此外，该方法在对话领域适应性训练策略上借鉴了域自适应训练策略，成功地在四个公共基准数据集上取得了新的最先进性能。

Jan, 2023

运用预训练模型对医患对话进行自动摘要

本文研究使用预训练的转换器模型对医患对话转录进行自动摘要的可行性，展示了在特定构造的数据集上，使用有限的训练数据 fine-tuning BART 可以生成流畅而足够的摘要，其生成效果远远超过人工注释者和先前发表的作品质量，并提出了多阶段的方法来处理较长的对话。

Sep, 2021

预训练变形金刚模型在抽象摘要中的有效适应性

本文探讨使用预训练的 Transformer 语言模型来进行文本摘要的实现，提出了基于源嵌入和领域自适应训练的方法，并在三个摘要数据集上进行了测试，并在其中两个数据集上取得了新的最佳表现。结果表明，该方法能够产生更专注的摘要，并且对于更抽象的数据集表现得更加明显。

Jun, 2019

可控主题聚焦抽象摘要

该研究提出了一种基于 Transformer 的架构，能够生成以特定主题为焦点的摘要，并通过修改 Transformer 的交叉注意机制实现主题焦点控制，从而在 NEWTS 数据集上取得了新的最佳表现，并且能够通过微调将该机制应用于不同的 Transformer 模型，提高了 CNN/Dailymail 和 XSum 基准数据集上的抽象概括性能。同时，通过人工评估证明，该模型生成的摘要更加准确，胜过了最先进的 Frost 模型。

Nov, 2023

预训练语言模型表示用于语言生成

本文研究了将预训练的语言模型表征集成到序列到序列模型中的不同策略，并将其应用于神经机器翻译和抽象摘要。实验证明，加入编码器网络的预训练表示是最有效的，可以在减慢推理速度仅 14％的情况下获得高达 5.3 BLEU 的增益，并且即使有数百万个句对可用时，仍然可以观察到改进。最后，在 CNN / DailyMail 的完整文本版本上，我们达到了最新的研究成果。

Mar, 2019

使用单个预先训练的 Transformer 实现高效的文本摘要

本研究探讨使用预训练的只有解码器的 Transformer 语言模型，来增强抽象摘要中的样本效率，并在 CNN/Daily Mail 数据集上进行实验以证实其有效性。实验结果表明，相比于预训练的编码器 - 解码器网络，该模型在低数据量的情况下有着更好的 ROUGE-2 得分。

May, 2019

TAN-NTM：用于神经主题建模的主题注意力网络

提出了一种名为 TAN-NTM 的框架，该框架使用一种新颖的注意力机制，即关注主题相关线索的单词，将文档作为一个标记序列进行处理。该模型发现，利用主题 - 单词分布来学习更好的特征已经没有得到很好的利用，尝试提出一种提高这种探讨的框架。在 20Newsgroups、Yelp Review Polarity 和 AGNews 等基准数据集上，相对于现有 SOTA 主题模型的 NPMI 一致性得分，我们进行了大量的削减和实验，结果证明我们的方法可以获得～9-15％的改善。此外，我们还证明了与现有一些主题模型相比，我们的方法通过潜在文档主题特征的提高，在文档分类和主题引导关键词生成等两个下游任务上表现更好。

Dec, 2020