上下文提取式自监督学习
本文提出了一种使用 transformer 自注意力机制进行无监督文本摘要提取的方法,并在 CNN / DailyMail 和 New York Times 数据集上证明其优于现有的无监督模型,且不太依赖于句子位置。
Oct, 2020
本文介绍一种使用预处理的深度语境化文本编码器 BERT 来改善自然语言任务,包括抽象概括,并提出一种自我监督的方法来弥补对话概括模型的缺陷。在共享的编码器 - 解码器架构上构建和微调抽象对话概括模型,并在最近引入的 SAMSum 语料库中经验性地评估,证明我们的方法在抽象概括中做出了改进。
Sep, 2022
本文提出了一种使用语言建模的无监督方法来对句子进行摘要,该方法使用了两种语言模型,并使用专业领域的语言模型来保持持续的上下文匹配,同时保持输出的流畅性,实验表明,该方法具有良好的性能。
Jul, 2019
本文提出一种在预训练与下游少样本学习之间使用自监督训练来教授模型执行上下文的少量样本学习,并在两个基准测试中提出和评估了四个自监督目标。实验结果表明,中间自监督阶段产生的模型优于强基准测试。消融实验表明影响下游性能的因素主要为训练数据量和自监督目标的多样性。定性分析表明,经过自监督训练的模型更擅长满足任务要求。
May, 2022
SelfDoc 是一个文档图像理解的任务无关的预训练框架,利用文档的位置、文本和视觉信息,并建模内容块之间的上下文关系,提出了一种新的跨模态学习模型,优于现有模型,同时具有自适应的视觉语言融合机制并应用自监督模型预训练,与以前作品相比,使用较少的文档图片达到更好的性能。
Jun, 2021
研究了两种新策略以提高自动抽取摘要的句子相似度估计,其中对比学习优化了文本级目标,同时使用互相学习增强句子相似度估计与句子重要性排名之间的关系。实验结果显示了策略的有效性。
Feb, 2023
一种基于孪生网络的无监督抽取式摘要模型,引入了可训练的双向预测目标,在选定的摘要和原始文档之间进行训练。与基于中心性排名的方法不同,我们的抽取式评分器可以进行端到端训练,无需位置假设。此外,我们通过近似 0-1 背包问题求解器引入了一个可微分的长度控制模块,用于端到端可控制长度的抽取。实验证明,相同的句子编码器下,我们的无监督方法在很大程度上优于基于中心性排名的基准方法。在长度控制能力方面,通过我们可训练的背包模块,性能始终优于强基准方法,而无需进行端到端训练。人工评估进一步证明,我们的方法在相关性和一致性方面优于基准方法。
Dec, 2023
本文介绍了一种利用自我监督和伪标记来预先训练深度模型,并提出了一种含义增强器和相互关注的方法来生成上下文感知的查询表示,以改进视频摘要任务的性能,并在常见的视频摘要 benchmark 中获得了最先进的性能。
Jul, 2023
提出了一种使用分布式单词表示和领域知识从参考论文中提取适当上下文的无监督模型,评估结果表明其明显优于现有技术,并且还演示了上下文化方法提高科学文章引用摘要的有效性。
May, 2017