重新思考用于中文拼写纠正的遮盖语言建模
本 paper 提出了一种基于新颖的神经网络结构和所谓的软遮罩技术的基于 BERT 的拼写错误检测与纠正方法,可以显著提高其准确性,适用于其他语言纠错问题。
May, 2020
本研究探讨了中文拼写纠错,提出了一种新的训练方法 Rephrasing Language Modeling,通过重新构造整个句子而非逐字符标记的方式来纠正拼写错误,取得了在细调和零样本测试中的最新最佳表现,超越了之前的方法,并能在与其他任务联合训练时学习到可迁移的语言表示。
Aug, 2023
本文介绍了一个名为 uChecker 的框架,该框架采用无监督的方法对汉语拼写错误进行检测和修正,其中使用 BERT 这样的模型作为骨干模型,并采用混淆集引导的 MASKing 策略来优化模型训练。实验结果表明,uChecker 在汉语拼写错误检测和修正任务的字符级和句子级准确性、精度、召回率和 F1 度量方面的表现是有效的。
Sep, 2022
该研究使用错误一致掩蔽策略来为预训练创建数据,展示了 ECSpell 在一般基准上超越了先前的最先进模型,将可变的用户字典添加到处理零射领域适应问题的通用令牌分类基础拼写员中将进一步提高性能。
Mar, 2022
基于 BERT 的模型在中文拼写检查任务方面表现出了显著的能力,然而传统的基于 BERT 的方法仍存在两个局限性:第一,虽然之前的研究发现明确的先验知识如词性标注对于拼写检查任务有益,但他们忽略了拼写错误会导致错误标签从而误导模型的事实;此外,他们忽视了 BERT 中间层所编码的隐含分层信息与不同的语言现象之间的相关性,从而导致了次优的准确性。我们提出了一种异构知识注入框架来减轻上述两个问题。为了整合明确的词性知识,我们采用了由高斯混合模型驱动的辅助任务策略。同时,为了整合编码器中的隐含的分层语言知识,我们提出了一种新颖的基于 n-gram 的逐层自注意力形式来生成多层表示。实验结果表明,我们提出的框架在四个强基准模型上都有稳定的性能提升,并且在两个数据集上优于先前的最先进方法。
Dec, 2023
本研究提出了一个 n-gram 遮蔽层,用于规避标签泄漏和错误干扰,并提出了一个新的点积门控机制,将语音和形态学信息与语义表示进行整合,进而提高了常见的 CSC 模型以及本文提出的方法在 SIGHAN 数据集上的性能。
May, 2023
该论文提出了一种基于自我蒸馏对比学习方法的 BERT 修改方式,以适应汉语拼写检查任务所需的语音和字形信息,实验证明该方法可以提高汉语拼写检查准确率。
Oct, 2022
通过引入小部分具体的中文丰富语义结构,LLMs 在少样本场景下比基于 BERT 模型的方法表现更好,验证了我们提出框架的优越性。
Mar, 2024
本文介绍了一种利用序列到序列学习和神经网络的方法来进行汉语拼写纠错,通过不断发现模型的弱点生成更有价值的训练实例并进行任务特定的预训练,逐步将生成的对抗性示例添加到训练集中的对抗性训练方法,可以提高多个 CSC 模型的泛化能力和鲁棒性,达到了 CSC 任务的最先进表现。
May, 2021
本文评估了几种典型的 CSC 模型在多个特定领域的适应能力,并测试了大型语言模型 ChatGPT 的性能。实验证明,CSC 模型在新的领域中性能明显下降。
Jan, 2024