关于语言编码器对语法错误的鲁棒性

ACLMay, 2020

关于语言编码器对语法错误的鲁棒性

On the Robustness of Language Encoders against Grammatical Errors

Fan Yin, Quanyu Long, Tao Meng, Kai-Wei Chang

TL;DR本文旨在研究预训练语言编码器（ELMo，BERT 和 RoBERTa）在面对自然语法错误时的表现，通过采集真实语法错误和进行对抗性攻击来模拟这些错误对干净文本数据的影响。结果证实，所有测试模型的性能都受到了影响，但影响程度有所不同。此外，我们设计了一个语言接受度任务来揭示它们在识别不符合语法的句子和错误位置方面的能力。本文的结果有助于理解语言编码器对语法错误的鲁棒性和行为。

Abstract

We conduct a thorough study to diagnose the behaviors of pre-trained language encoders (ELMo, BERT, and RoBERTa) when confronted with natural grammatical errors. Specifically, we collect real grammatical errors from non-native speakers and conduct →

pre-trained language encoders grammatical errors adversarial attacks linguistic acceptability task robustness

发现论文，激发创造

一种多层卷积编码 - 解码神经网络用于语法错误纠正

本研究提出了一种基于多层卷积编码 - 解码神经网络的自动文本纠错方法，利用字符 N-gram 信息来初始化 embeddings，通过 attention 机制捕捉局部文本语境并使用 N-gram 语言模型和编辑特征进行打分和融合，实现了比现有基于统计学习的方法更好的语法和流畅度的纠错效果。

Jan, 2018

SenTest: 句子编码器鲁棒性评估

通过对比学习方法评估句子编码器的鲁棒性，使用字符级、词级和句级攻击检验了模型的稳健性，结果显示模型在扰动数据集上的准确率可下降高达 15％，且当前的分类策略未能充分利用语义和句法结构信息。

Nov, 2023

使用基于 BERT 的预训练模型进行中文语法纠错

本研究基于 Cui 等人（2020）开发的 BERT 模型，分别采用两种方法将其纳入编码器 - 解码器模型进行汉语语法错误纠正任务，发现句子级错误尚未得到解决。

Nov, 2020

多头多层注意力机制用于深度语言表示的语法错误检测

利用经过预训练的语言表示模型的中间和最终层提取句子中的语法错误特征，通过多头多层的注意力模型，使用 Bidirectional Encoder Representation from Transformers (BERT) ，在三个语法错误数据集上实现更好的 F_0.5 分数，比当前最先进的方法分别高出 6.0（FCE），8.2（CoNLL14）和 12.2（JFLEG）个百分点，并证明利用多头多层注意力，我们的模型可以利用句子中每个记号的更广泛信息。

Apr, 2019

通过语法错误检测探索针对性的句法知识

本研究旨在利用语法错误检测作为一种诊断探针来评估预训练语言模型的令牌级上下文表示对主谓一致的了解程度，并评估了来自五个预训练语言模型的上下文表示。研究者发现，掩码语言模型线性编码了与 SVA 错误检测相关的信息，而自回归模型的表现与我们的基准线持平，但是当探针在不同的训练集上进行训练并在不同的句法结构上进行评估时，我们也观察到表现上的差异。

Oct, 2022

基于更好的预训练和顺序迁移学习构建的神经语法错误纠正系统

本文介绍了一种用于纠正语法错误的低资源序列到序列任务方法，首先使用现实的噪声函数生成大型未注释语料库的错误版本，然后利用这些并行语料库进行 Transformer 模型的预训练，并通过顺序迁移学习将这些模型适应于测试集的领域和风格。同时结合上下文感知的神经拼写检查器，我们的系统在 ACL 2019 BEA 共享任务中取得了竞争力的结果。我们公开代码与材料以便复现。

Jul, 2019

通过鲁棒性训练提升零样本跨语言迁移学习

本文提出了一种通过对抗样本和零样本跨语言转移失败案例进行联系的学习策略，采用对抗性训练和随机平滑这两种方法来训练多语言编码器更加强健的模型，实验结果表明，强健训练可以提高零样本跨语言数据分类任务中的性能，尤其在输入语句属于两种不同语言的情况下，改进更为显著。

Apr, 2021

生成语法错误校正的人工错误负担

通过人工制造包含错误的句子，使用序列到序列模型来实现逐步的语法错误纠正，并比较其效果与规则化的方法。

Jul, 2019

Robust Encodings: 一种应对对抗性错别字的框架

本文提出一种名为 RobEn 的框架，实现 NLP 系统对抗攻击的鲁棒性，相较于之前的方法具有更好的稳定性和保真度，在六项任务中，RobEn 与 BERT 的结合在防御一系列错别字攻击中可达到 71.3% 的平均准确度，而之前的方法只能达到 35.3%。

May, 2020

伪装即一切所需：评估和增强语言模型抵御伪装对抗攻击的鲁棒性

采用拟态数据集和动态修改数据的对抗训练方法可以提高 Transformer 模型在对抗性攻击下的鲁棒性，使性能下降最多为 5%。然而，模型的性能与鲁棒性之间存在一种权衡关系，进一步的研究仍然需要进行。

Feb, 2024