问题回答的跨度选择预训练

ACLSep, 2019

Span Selection Pre-training for Question Answering

Michael Glass, Alfio Gliozzo, Rishav Chakravarti, Anthony Ferritto, Lin Pan...

TL;DR本篇论文提出了一种新的预训练模型 SSPT，即 Span Selection Pre-Training，通过将预训练模型任务转换为阅读理解，从而提高 BERT 及其他预训练模型的学习能力，实验证明该方法对于数据集有限的场景下表现尤为出色。

Abstract

bert (Bidirectional Encoder Representations from Transformers) and related pre-trained transformers have provided large gains across many language understanding tasks, achieving a new state-of-the-art (SOTA).

bert pre-trained transformers reading comprehension span selection pre-training multiple reading comprehension

发现论文，激发创造

BERTSel：基于预训练模型的答案选择

使用预训练模型 BERT 进行微调以提高答案选择任务的性能并在五个数据集上获得 STOA 结果

May, 2019

SpanBERT：通过表示和预测跨度来提高预训练

本论文提出了 SpanBERT 预训练方法，扩展了 BERT 的掩蔽方式和训练方式，使其在跨度选择和指代消解等任务中表现出比 BERT 和基线更优秀的性能，包括在 SQuAD、OntoNotes 和 TACRED 等各种基准测试上都取得了更好的结果。

Jul, 2019

预训练跨度选择的少样本问题回答

在几个问答基准测试中，经过 Fine-Tuning 后，预训练模型已经达到了与人类相当的水平。然而我们研究了更为现实的少样本情况，发现标准的模型表现不佳，由此突出了当前预训练目标与问答之间的差异。为此我们提出了一种新的问答针对性预训练方案：Recurring Span Selection，该方案非常适合处理具有多个重复区域的段落，并在提供的数据量很少的情况下在 SQuAD 的基准测试中取得了令人惊讶的高成绩（例如仅使用 128 个训练示例时即可获得 72.7 F1 的成绩），同时保持了在高资源设置下具有相当的性能。

Jan, 2021

利用 Transformer 的双向编码表示进行答案选择

本文探讨了在大规模数据集上对 transformer 模型进行语言模型的预训练，并在 QA 和 CQA 数据集上微调 BERT 模型进行答案选择任务，在 QA 数据集中观察到了最大 13.1% 的提升，在 CQA 数据集中观察到了最大 18.7% 的提升。

Nov, 2020

现代语言模型的损失函数

本文探讨了 BERT 预训练在 NSP 任务上的影响以及其他 14 种可能的辅助预训练任务，并研究了将多个任务包含到预训练中的不同方法。实验证明，使用多种任务的多任务预训练框架比单个辅助任务更好地提高了结果表现，并在 GLUE 基准测试中打败了 BERT Base。

Oct, 2020

时间理解的显著跨度屏蔽

通过引入时间跨度遮蔽（TSM）中间训练，我们在已有的 Salient Span Masking（SSM）的基础上进行了研究，发现 SSM 单独对三项时间任务的下游性能有所提高，可以通过增加 TSM 任务进一步提高平均 0.29 分，并自主探究了 SSM 的知识来源与对模型性能的影响。

Mar, 2023

基于嵌入式大规模检索的预训练任务

本文研究基于嵌入的检索模型，并探究对段落级别的预训练任务在训练强大的嵌入式 Transformer 模型上的关键作用。

Feb, 2020

学习提问以回答问题：获取 GPT-2 和 BERT 的最大优势

本文利用变压器模型和深度神经网络提出了一种有效的自动生成问题的方法，并通过 SQuAD 1.1 数据集实验证明所提出的模型可以产生语义正确且多样化的问题，并且在半监督学习中表现优异，为小数据领域内的问题生成提供了强大的支持。

Nov, 2019

基于 “洞穴填充” 的自注意力网络预训练

本研究提出了一种新的预训练双向 Transformer 模型的方法，通过解决一种词重建任务来提高语言理解问题的性能，实验表明，在 GLUE 和 NER 以及组分分析基准测试上获得了大幅度的性能提高，模型的各种因素对于有效的预训练起到了积极的贡献。

Mar, 2019

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019