uChecker：使用掩码预训练语言模型作为无监督中文拼写检查器

COLINGSep, 2022

uChecker：使用掩码预训练语言模型作为无监督中文拼写检查器

uChecker: Masked Pretrained Language Models as Unsupervised Chinese Spelling Checkers

Piji Li

TL;DR本文介绍了一个名为 uChecker 的框架，该框架采用无监督的方法对汉语拼写错误进行检测和修正，其中使用 BERT 这样的模型作为骨干模型，并采用混淆集引导的 MASKing 策略来优化模型训练。实验结果表明，uChecker 在汉语拼写错误检测和修正任务的字符级和句子级准确性、精度、召回率和 F1 度量方面的表现是有效的。

Abstract

The task of chinese spelling check (CSC) is aiming to detect and correct spelling errors that can be found in the text. While manually annotating a high-quality dataset is expensive and time-consuming, thus the scale of the training dataset is usually very small (e.g., SIGHAN15 only co

chinese spelling check unsupervised learning uchecker bert spelling error detection and correction

发现论文，激发创造

重新思考用于中文拼写纠正的遮盖语言建模

通过发现 BERT 对中文拼写纠正的影响，本文提出随机蒙掉输入序列 20％的非错误标记是一种简单有效的提高语言模型和错误模型的技术，它可以被应用于任何模型架构，并在 SIGHAN 等基准测试中取得了新的最优结果

May, 2023

具有误差一致预训练的通用和领域自适应中文拼写检查

该研究使用错误一致掩蔽策略来为预训练创建数据，展示了 ECSpell 在一般基准上超越了先前的最先进模型，将可变的用户字典添加到处理零射领域适应问题的通用令牌分类基础拼写员中将进一步提高性能。

Mar, 2022

使用软掩码 BERT 进行拼写错误纠正

本 paper 提出了一种基于新颖的神经网络结构和所谓的软遮罩技术的基于 BERT 的拼写错误检测与纠正方法，可以显著提高其准确性，适用于其他语言纠错问题。

May, 2020

基于 BERT 的中文拼写检查模型的层间注意力和高斯混合模型增强

基于 BERT 的模型在中文拼写检查任务方面表现出了显著的能力，然而传统的基于 BERT 的方法仍存在两个局限性：第一，虽然之前的研究发现明确的先验知识如词性标注对于拼写检查任务有益，但他们忽略了拼写错误会导致错误标签从而误导模型的事实；此外，他们忽视了 BERT 中间层所编码的隐含分层信息与不同的语言现象之间的相关性，从而导致了次优的准确性。我们提出了一种异构知识注入框架来减轻上述两个问题。为了整合明确的词性知识，我们采用了由高斯混合模型驱动的辅助任务策略。同时，为了整合编码器中的隐含的分层语言知识，我们提出了一种新颖的基于 n-gram 的逐层自注意力形式来生成多层表示。实验结果表明，我们提出的框架在四个强基准模型上都有稳定的性能提升，并且在两个数据集上优于先前的最先进方法。

Dec, 2023

汉语拼写校正作为语言模型的改写

本研究探讨了中文拼写纠错，提出了一种新的训练方法 Rephrasing Language Modeling，通过重新构造整个句子而非逐字符标记的方式来纠正拼写错误，取得了在细调和零样本测试中的最新最佳表现，超越了之前的方法，并能在与其他任务联合训练时学习到可迁移的语言表示。

Aug, 2023

屏蔽标签和噪声：一种用于中文拼写检查的 N-Gram 掩码拼写器

本研究提出了一个 n-gram 遮蔽层，用于规避标签泄漏和错误干扰，并提出了一个新的点积门控机制，将语音和形态学信息与语义表示进行整合，进而提高了常见的 CSC 模型以及本文提出的方法在 SIGHAN 数据集上的性能。

May, 2023

对中文拼写检查模型的领域自适应能力的实证研究

本文评估了几种典型的 CSC 模型在多个特定领域的适应能力，并测试了大型语言模型 ChatGPT 的性能。实验证明，CSC 模型在新的领域中性能明显下降。

Jan, 2024

C-LLM: 逐字学习检测中文拼写错误

我们提出了一种基于大型语言模型的中文拼写检查方法 C-LLM，该方法通过逐个字符检查错误，实现了字符级别的对齐，从而有效地缓解了与字符级别约束相关的问题。在两个中文拼写检查基准测试中的实验表明，C-LLM 相比现有方法平均提升了 10％，在一般场景下提升了 2.1％，在垂直领域场景中有显著的 12％改进，达到了最先进的性能。

Jun, 2024

SDCL: 自我蒸馏对比学习用于中文拼写校对

该论文提出了一种基于自我蒸馏对比学习方法的 BERT 修改方式，以适应汉语拼写检查任务所需的语音和字形信息，实验证明该方法可以提高汉语拼写检查准确率。

Oct, 2022

中文拼写检查的全面评估和分析研究

开发预训练模型和结合语音和图像信息使神经模型在中文拼写检查方面取得了高分，该研究通过构建不同目的的综合测试集，实现了这一典型模型范式并进行了实验，在结果的详细分析中发现了四个重要发现。

Jul, 2023