自我注意力和预训练的多语言组成句法分析

ACLDec, 2018

自我注意力和预训练的多语言组成句法分析

Multilingual Constituency Parsing with Self-Attention and Pre-Training

Nikita Kitaev, Steven Cao, Dan Klein

TL;DR通过对各种语言和预训练条件进行的实验比较表明，联合无监督预训练和微调是一种有效的方法，可以在各种语言上提高句法分析的性能并实现新的最先进的结果。

Abstract

We show that constituency parsing benefits from unsupervised pre-training across a variety of languages and a range of pre-training conditions. We first compare the benefits of no pre-training, fastText, ELMo, an

constituency parsing unsupervised pre-training multilingual pre-training fine-tuning state-of-the-art results

发现论文，激发创造

利用多语言 BERT、小语料库和小树库进行分析

本文提出在多语种低资源场景下采用语言特定的预训练和词汇扩充以适应多语种模型并使用所提出方法对四种语言进行案例研究，结果显示这些方法可以显著提高性能，特别是在最低资源的情况下，并证明了模型的预训练数据与目标语言变体之间的关系的重要性。

Sep, 2020

多语言 BERT 模型预训练后对齐

本研究提出了一种简单的方法，作为预训练后对多语种上下文嵌入进行对齐的步骤，以提高预训练模型的零 - shot 跨语言迁移能力。该方法通过最近提出的 Translation Language Modeling 目标在词级别上对嵌入进行对齐，并通过对比学习和随机输入洗牌在句子级别上进行对齐。在下游任务的微调中，使用英语进行句子级别的代码转换。在 XNLI 上，我们的最佳模型（从 mBERT 初始化）在零 - shot 设置上比 mBERT 提高了 4.7％，在使用少于 18％的相同平行数据和 31％的模型参数的情况下，实现了与 XLM for translate-train 相当的结果。在 MLQA 上，我们的模型胜过比我们多 57％参数的 XLM-R_Base。

Oct, 2020

利用自训练自注意力模型提高失流畅侦测

本研究证明自训练是一种半监督技术，它可以提高基于自我关注的解析器在断续检测方面的性能，并且展示了模型集成进一步提高断续检测性能的结果。

Apr, 2020

依存句法分析器的三倍训练的再探讨

本研究比较了两种半监督学习技术，即 tri-training 和预训练词嵌入，在依存句法分析任务中的表现。研究探讨了语言特定的 FastText 和 ELMo 嵌入以及多语言 BERT 嵌入，并选择了匈牙利语、维吾尔语和越南语等语言进行研究。结果表明，预训练词嵌入比 tri-training 更有效地利用了未标记数据，但这两种方法可以成功地结合使用。

Sep, 2021

可扩展的跨语言预训练和微调技术实现多语言翻译

本文证明多语言预训练可以通过多语言微调来创建多语言翻译模型，并且证明在不失性能的前提下，预训练模型可以扩展到更多语言。此外，作者基于 ML50 数据集表明，多语言微调相较于其他训练方式有显著提升。

Aug, 2020

为低资源语言预训练数据质量和数量：马耳他语新语料库和 BERT 模型

本文分析了使用单语数据进行预训练对于 mBERT 中未包含的低资源语种（如马耳他语）的效果，并研究了新的马耳他语语料库的大小和域对下游任务性能的影响。研究表明，使用混合预训练域往往优于仅使用维基百科文本，并且只有一小部分的马耳他语语料库就足以在任务性能上取得显著提高。此外，本文还预训练并比较了两个模型：从头开始训练的单语 BERT 模型（BERTu）和进一步预训练的多语言 BERT 模型（mBERTu），这两个模型都在各种下游任务上取得了最先进的性能。

May, 2022

自注意力编码器进行的组成成分句法分析

通过将 LSTM 编码器替换为自注意力机制，能够提高最先进的判别型成分解析器的性能，特别是当用预训练的字词表示时，而且这种方法在 SPMRL 数据集的大部分语言上的性能优于以前的最佳结果。

May, 2018

适应预训练的单语和多语模型的机器翻译配方

本文旨在研究利用预训练模型进行机器翻译时，冻结参数与添加新参数来微调预训练模型的优点和缺点，通过试验方式得出最优结果。结果表明，当微调 monolingual 预训练模型时，通过冻结大部分模型参数并添加更多的位置嵌入可以在机器翻译任务中获得最佳性能表现，最重要的微调参数是编码器 - 解码器的关注力参数。

Apr, 2020

ANNA: 增强语言表达能力用于问答

本文中，我们展示了数据处理、预训练任务、神经网络建模或微调的方法如何单独影响性能，以及当这些方法共同考虑预训练模型时，语言模型在特定的问答任务上表现出最佳结果；具体地，我们提出了一种扩展的预训练任务和一种新的邻居感知机制，能更多地关注邻近的标记，从而捕捉预训练语言建模的上下文丰富性。我们的最佳模型在 SQuAD 1.1 上实现了 95.7％的 F1 和 90.6％的 EM，也在 SQuAD 2.0 基准上超过了现有的预训练语言模型，如 RoBERTa，ALBERT，ELECTRA 和 XLNet。

Mar, 2022

语言无关的 BERT 句子嵌入

本研究旨在通过探究多种单语和跨语言表示学习方法，如掩码语言建模，翻译语言建模和双编码器翻译排名等，结合预训练的多语言模型来学习多语言句子嵌入，并成功将其用于多语言文本检索和机器翻译任务中。

Jul, 2020