基于 “洞穴填充” 的自注意力网络预训练

Mar, 2019

基于 “洞穴填充” 的自注意力网络预训练

Cloze-driven Pretraining of Self-attention Networks

Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, Michael Auli

TL;DR本研究提出了一种新的预训练双向 Transformer 模型的方法，通过解决一种词重建任务来提高语言理解问题的性能，实验表明，在 GLUE 和 NER 以及组分分析基准测试上获得了大幅度的性能提高，模型的各种因素对于有效的预训练起到了积极的贡献。

Abstract

We present a new approach for pretraining a bi-directional transformer model that provides significant performance gains across a variety

pretraining bi-directional transformer model language understanding problems cloze-style word reconstruction task performance gains

发现论文，激发创造

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

将预训练 Transformers 作为基于能量的 Cloze 模型

介绍了一种基于能量的填空模型 Electric，用于文本表示学习，通过噪声对比估计算法进行训练。Electric 在下游任务表现优秀，特别是在对文本进行可能性评分方面表现出较高的效果，同时清晰地解析了 ELECTRA 预训练期间所学习的内容。

Dec, 2020

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019

注意力求和读者网络的文本理解

该研究提出了一种使用注意力机制直接从文本中选取答案的模型，特别适用于以文本中某个单词为答案的问题，并在多个数据集上取得了新的最优成绩。

Mar, 2016

句子编码器预训练的交叉思维

这篇论文提出了 Cross-Thought 方法用以预训练序列编码器，通过大规模的短序列训练 Transformer-based 序列编码器来自动选择对预测掩码词最有用的信息，用于大规模自然语言处理任务，如问答，文本推断等，实验结果表明，所提出的方法比传统基于连续句子信号的最新编码器以及传统掩码语言模型基线更加优秀，并打破了 HotpotQA (full-wiki setting) 的最新记录，取得了新的最高水平的中间信息检索表现。

Oct, 2020

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

预训练图循环网络用于语言表示

本研究提出了一种基于图循环网络的语言模型预训练方法，其在性能、效率和生成多样性方面优于基于注意力机制的 Transformer，用于自监督学习的时候有较高的潜力。

Sep, 2022

基于注意力机制的阅读理解神经网络

本文提出了一种名为 Attention-over-Attention Reader 的模型，该模型针对 Cloze-style 阅读理解任务，在文档级别注意力的基础上加入了另一层注意力机制，用以预测正确答案，实验结果表明该模型在 CNN 和 Children's Book Test 等公开数据集上明显优于现有的各种最先进系统。

Jul, 2016

LUKE: 深度上下文化实体表示与实体感知自注意力

本文提出了一种基于双向 transformer 的新预训练上下文表示方法来处理实体，通过在维基百科中的大型实体注释语料库上预测随机屏蔽的单词和实体，训练了一个新的与实体相关的自注意机制，实现了在实体相关任务中的良好表现。

Oct, 2020

问题回答的跨度选择预训练

本篇论文提出了一种新的预训练模型 SSPT，即 Span Selection Pre-Training，通过将预训练模型任务转换为阅读理解，从而提高 BERT 及其他预训练模型的学习能力，实验证明该方法对于数据集有限的场景下表现尤为出色。

Sep, 2019