Apr, 2019

多头多层注意力机制用于深度语言表示的语法错误检测

TL;DR利用经过预训练的语言表示模型的中间和最终层提取句子中的语法错误特征,通过多头多层的注意力模型,使用 Bidirectional Encoder Representation from Transformers (BERT) ,在三个语法错误数据集上实现更好的 F_0.5 分数,比当前最先进的方法分别高出 6.0(FCE),8.2(CoNLL14)和 12.2(JFLEG)个百分点,并证明利用多头多层注意力,我们的模型可以利用句子中每个记号的更广泛信息。