使用软掩码 BERT 进行拼写错误纠正

ACLMay, 2020

使用软掩码 BERT 进行拼写错误纠正

Spelling Error Correction with Soft-Masked BERT

Shaohua Zhang, Haoran Huang, Jicong Liu, Hang Li

TL;DR本 paper 提出了一种基于新颖的神经网络结构和所谓的软遮罩技术的基于 BERT 的拼写错误检测与纠正方法，可以显著提高其准确性，适用于其他语言纠错问题。

Abstract

spelling error correction is an important yet challenging task because a satisfactory solution of it essentially needs human-level language understanding ability. Without loss of generality we consider chinese sp

spelling error correction chinese bert neural architecture soft-masking technique

发现论文，激发创造

重新思考用于中文拼写纠正的遮盖语言建模

通过发现 BERT 对中文拼写纠正的影响，本文提出随机蒙掉输入序列 20％的非错误标记是一种简单有效的提高语言模型和错误模型的技术，它可以被应用于任何模型架构，并在 SIGHAN 等基准测试中取得了新的最优结果

May, 2023

uChecker：使用掩码预训练语言模型作为无监督中文拼写检查器

本文介绍了一个名为 uChecker 的框架，该框架采用无监督的方法对汉语拼写错误进行检测和修正，其中使用 BERT 这样的模型作为骨干模型，并采用混淆集引导的 MASKing 策略来优化模型训练。实验结果表明，uChecker 在汉语拼写错误检测和修正任务的字符级和句子级准确性、精度、召回率和 F1 度量方面的表现是有效的。

Sep, 2022

汉语拼写校正作为语言模型的改写

本研究探讨了中文拼写纠错，提出了一种新的训练方法 Rephrasing Language Modeling，通过重新构造整个句子而非逐字符标记的方式来纠正拼写错误，取得了在细调和零样本测试中的最新最佳表现，超越了之前的方法，并能在与其他任务联合训练时学习到可迁移的语言表示。

Aug, 2023

屏蔽标签和噪声：一种用于中文拼写检查的 N-Gram 掩码拼写器

本研究提出了一个 n-gram 遮蔽层，用于规避标签泄漏和错误干扰，并提出了一个新的点积门控机制，将语音和形态学信息与语义表示进行整合，进而提高了常见的 CSC 模型以及本文提出的方法在 SIGHAN 数据集上的性能。

May, 2023

基于 BERT 的中文拼写检查模型的层间注意力和高斯混合模型增强

基于 BERT 的模型在中文拼写检查任务方面表现出了显著的能力，然而传统的基于 BERT 的方法仍存在两个局限性：第一，虽然之前的研究发现明确的先验知识如词性标注对于拼写检查任务有益，但他们忽略了拼写错误会导致错误标签从而误导模型的事实；此外，他们忽视了 BERT 中间层所编码的隐含分层信息与不同的语言现象之间的相关性，从而导致了次优的准确性。我们提出了一种异构知识注入框架来减轻上述两个问题。为了整合明确的词性知识，我们采用了由高斯混合模型驱动的辅助任务策略。同时，为了整合编码器中的隐含的分层语言知识，我们提出了一种新颖的基于 n-gram 的逐层自注意力形式来生成多层表示。实验结果表明，我们提出的框架在四个强基准模型上都有稳定的性能提升，并且在两个数据集上优于先前的最先进方法。

Dec, 2023

一个基于误差引导的汉语拼写纠错模型

本文提出了一种基于神经网络和 BERT 的错误指导拼音检查模型，支持高度并行化解码，通过引入新的损失函数融合错词集，提高了错词的辨别能力和纠错质量。研究证明，在基准测试上，该模型在纠错质量和计算速度方面均显著优于现有技术。

Jan, 2023

遮盖正确令牌：一种令人尴尬简单的错误修正方法

本文探讨了正确标记应如何更好地被利用以促进有效训练的文本错误纠正方法，并提出了一种基于随机蒙版的简单而有效的策略来实现这个目标。在汉语数据集的拼写错误纠正和语音识别错误纠正以及英语数据集的语法错误纠正实验中，我们的方法提高了校正精度。

Nov, 2022

SoftCorrect: 语音识别的软检测纠错

本文提出了 SoftCorrect, 一种具有软错误检测机制的误差校正方法，该方法通过由专门设计的语言模型产生的一种概率来检测单词是否正确，然后设计了一种受限制的 CTC 损失，仅复制检测到的错误单词，以便解码器集中进行错误单词的更正

Dec, 2022

SDCL: 自我蒸馏对比学习用于中文拼写校对

该论文提出了一种基于自我蒸馏对比学习方法的 BERT 修改方式，以适应汉语拼写检查任务所需的语音和字形信息，实验证明该方法可以提高汉语拼写检查准确率。

Oct, 2022

具有误差一致预训练的通用和领域自适应中文拼写检查

该研究使用错误一致掩蔽策略来为预训练创建数据，展示了 ECSpell 在一般基准上超越了先前的最先进模型，将可变的用户字典添加到处理零射领域适应问题的通用令牌分类基础拼写员中将进一步提高性能。

Mar, 2022