上下文提取式自监督学习

ACLJun, 2019

Self-Supervised Learning for Contextualized Extractive Summarization

Hong Wang, Xin Wang, Wenhan Xiong, Mo Yu, Xiaoxiao Guo...

TL;DR通过引入三种辅助预训练任务，从而以自监督的方式学习捕捉文档级上下文，进一步改善目前的提取式摘要模型，并在广泛使用的 CNN / DM 数据集上进行的实验验证了所提出的辅助任务的有效性。此外，我们显示出，在预训练后，一个由简单构建块组成的干净模型可以胜过之前精心设计的最先进模型。

Abstract

Existing models for extractive summarization are usually trained from scratch with a cross-entropy loss, which does not explicitly capture the global context at the document level. In this paper, we aim to improve this task by introducing three auxiliary →

extractive summarization pre-training tasks document-level context cnn/dm dataset state-of-the-art

发现论文，激发创造

利用预训练的层次 Transformer 进行无监督抽取式摘要

本文提出了一种使用 transformer 自注意力机制进行无监督文本摘要提取的方法，并在 CNN / DailyMail 和 New York Times 数据集上证明其优于现有的无监督模型，且不太依赖于句子位置。

Oct, 2020

利用自我监督方法增强语义理解，用于抽象对话摘要

本文介绍一种使用预处理的深度语境化文本编码器 BERT 来改善自然语言任务，包括抽象概括，并提出一种自我监督的方法来弥补对话概括模型的缺陷。在共享的编码器 - 解码器架构上构建和微调抽象对话概括模型，并在最近引入的 SAMSum 语料库中经验性地评估，证明我们的方法在抽象概括中做出了改进。

Sep, 2022

基于上下文匹配的简单无监督摘要

本文提出了一种使用语言建模的无监督方法来对句子进行摘要，该方法使用了两种语言模型，并使用专业领域的语言模型来保持持续的上下文匹配，同时保持输出的流畅性，实验表明，该方法具有良好的性能。

Jul, 2019

通过自我监督训练改进上下文少样本学习

本文提出一种在预训练与下游少样本学习之间使用自监督训练来教授模型执行上下文的少量样本学习，并在两个基准测试中提出和评估了四个自监督目标。实验结果表明，中间自监督阶段产生的模型优于强基准测试。消融实验表明影响下游性能的因素主要为训练数据量和自监督目标的多样性。定性分析表明，经过自监督训练的模型更擅长满足任务要求。

May, 2022

SelfDoc: 自我监督文件表示学习

SelfDoc 是一个文档图像理解的任务无关的预训练框架，利用文档的位置、文本和视觉信息，并建模内容块之间的上下文关系，提出了一种新的跨模态学习模型，优于现有模型，同时具有自适应的视觉语言融合机制并应用自监督模型预训练，与以前作品相比，使用较少的文档图片达到更好的性能。

Jun, 2021

无监督抽取式摘要中句子相似度估计的改进

研究了两种新策略以提高自动抽取摘要的句子相似度估计，其中对比学习优化了文本级目标，同时使用互相学习增强句子相似度估计与句子重要性排名之间的关系。实验结果显示了策略的有效性。

Feb, 2023

自我训练提升自然语言理解的预训练

本文研究了一种使用自训练方法的半监督学习，提出了 SentAugment 数据增强方法，并取得了在文本分类任务上高达 2.6% 的改进。

Oct, 2020

可学习的长度控制策略的无监督抽取式摘要

一种基于孪生网络的无监督抽取式摘要模型，引入了可训练的双向预测目标，在选定的摘要和原始文档之间进行训练。与基于中心性排名的方法不同，我们的抽取式评分器可以进行端到端训练，无需位置假设。此外，我们通过近似 0-1 背包问题求解器引入了一个可微分的长度控制模块，用于端到端可控制长度的抽取。实验证明，相同的句子编码器下，我们的无监督方法在很大程度上优于基于中心性排名的基准方法。在长度控制能力方面，通过我们可训练的背包模块，性能始终优于强基准方法，而无需进行端到端训练。人工评估进一步证明，我们的方法在相关性和一致性方面优于基准方法。

Dec, 2023

基于伪标签监督的视频查询摘要

本文介绍了一种利用自我监督和伪标记来预先训练深度模型，并提出了一种含义增强器和相互关注的方法来生成上下文感知的查询表示，以改进视频摘要任务的性能，并在常见的视频摘要 benchmark 中获得了最先进的性能。

Jul, 2023

利用词嵌入和领域知识为科学摘要加入文献引用语境

提出了一种使用分布式单词表示和领域知识从参考论文中提取适当上下文的无监督模型，评估结果表明其明显优于现有技术，并且还演示了上下文化方法提高科学文章引用摘要的有效性。

May, 2017