多头多层注意力机制用于深度语言表示的语法错误检测

Apr, 2019

多头多层注意力机制用于深度语言表示的语法错误检测

Multi-Head Multi-Layer Attention to Deep Language Representations for Grammatical Error Detection

Masahiro Kaneko, Mamoru Komachi

TL;DR利用经过预训练的语言表示模型的中间和最终层提取句子中的语法错误特征，通过多头多层的注意力模型，使用 Bidirectional Encoder Representation from Transformers (BERT) ，在三个语法错误数据集上实现更好的 F_0.5 分数，比当前最先进的方法分别高出 6.0（FCE），8.2（CoNLL14）和 12.2（JFLEG）个百分点，并证明利用多头多层注意力，我们的模型可以利用句子中每个记号的更广泛信息。

Abstract

It is known that a deep neural network model pre-trained with large-scale data greatly improves the accuracy of various tasks, especially when there are resource constraints. However, the information needed to solve a given task can vary, and simply using the output of the final layer

deep neural network pre-trained language representation model multi-head multi-layer attention model grammatical error detection bert

发现论文，激发创造

一种多层卷积编码 - 解码神经网络用于语法错误纠正

本研究提出了一种基于多层卷积编码 - 解码神经网络的自动文本纠错方法，利用字符 N-gram 信息来初始化 embeddings，通过 attention 机制捕捉局部文本语境并使用 N-gram 语言模型和编辑特征进行打分和融合，实现了比现有基于统计学习的方法更好的语法和流畅度的纠错效果。

Jan, 2018

利用深度表示进行神经机器翻译

本文提出了一种新的神经机器翻译方法，采用层聚合和多层注意力机制，通过引入辅助正则化项促进不同层捕获多样化信息，实验结果表明该方法在 WMT14 英德和 WMT17 中英数据上具有普适性与有效性。

Oct, 2018

一种用于语法错误校正的嵌套注意力神经混合模型

通过基于嵌套注意力层的混合神经模型，将神经机器翻译方法发展应用于语法纠错，实验证明该模型对单词或字符水平上的错误检测和修复均具有良好的效果，并在 CoNLL-14 基准测试数据集上明显优于以往的神经模型，尤其对小修改的局部错误有明显的改善。

Jul, 2017

关于语言编码器对语法错误的鲁棒性

本文旨在研究预训练语言编码器（ELMo，BERT 和 RoBERTa）在面对自然语法错误时的表现，通过采集真实语法错误和进行对抗性攻击来模拟这些错误对干净文本数据的影响。结果证实，所有测试模型的性能都受到了影响，但影响程度有所不同。此外，我们设计了一个语言接受度任务来揭示它们在识别不符合语法的句子和错误位置方面的能力。本文的结果有助于理解语言编码器对语法错误的鲁棒性和行为。

May, 2020

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019

基于更好的预训练和顺序迁移学习构建的神经语法错误纠正系统

本文介绍了一种用于纠正语法错误的低资源序列到序列任务方法，首先使用现实的噪声函数生成大型未注释语料库的错误版本，然后利用这些并行语料库进行 Transformer 模型的预训练，并通过顺序迁移学习将这些模型适应于测试集的领域和风格。同时结合上下文感知的神经拼写检查器，我们的系统在 ACL 2019 BEA 共享任务中取得了竞争力的结果。我们公开代码与材料以便复现。

Jul, 2019

注意力可以反映句法结构 (如果你允许)

本研究通过对 18 种语言进行多语言 BERT 的解码实验，以测试依存句法是否反映在注意力模式中的普适性，并归纳出单一注意力头可以以上线准确率解码全树。尝试通过对 mBERT 进行监督解析目标的微调，结果表明注意力模式可以代表语言结构。

Jan, 2021

基于字符注意力机制的神经语言纠错

本文介绍了一种基于神经网络的自然语言校正方法，该方法以字符级别操作避免了词汇表外的问题，并展示了在语言学习者论坛收集的数据集上的灵活性和性能。与语言建模相结合后，该方法在 CoNLL 2014 共享任务中实现了最先进的 $F_{0.5}$- 分数。

Mar, 2016

神经机器翻译的多层表示融合

本文提出多层表示融合（MLRF）方法来融合神经机器翻译系统中的堆叠层，并设计三个融合函数以从堆叠中学习更好的表示。实验结果显示，我们的方法在 IWSLT 德英和 NIST 中英机器翻译任务上分别比强 Transformer 基线提高了 0.92 和 0.56 BLEU 分数，这是新的德英翻译的最新水平。

Feb, 2020

多头注意力：合作而非串联

该论文提出了一种协作式多头注意力层，该方法通过共享 key/query 投影来降低注意力层中参数的数量，可以用于任何变压器体系结构，并对语言理解、机器翻译和计算机视觉方面进行了验证和实验，并可将预训练的多头注意力层重新参数化为协同注意力层，使 key 和 query 投影的大小减小了 4 倍，而准确性和速度保持不变。

Jun, 2020