使用软掩码 BERT 进行拼写错误纠正
通过发现 BERT 对中文拼写纠正的影响,本文提出随机蒙掉输入序列 20%的非错误标记是一种简单有效的提高语言模型和错误模型的技术,它可以被应用于任何模型架构,并在 SIGHAN 等基准测试中取得了新的最优结果
May, 2023
本文介绍了一个名为 uChecker 的框架,该框架采用无监督的方法对汉语拼写错误进行检测和修正,其中使用 BERT 这样的模型作为骨干模型,并采用混淆集引导的 MASKing 策略来优化模型训练。实验结果表明,uChecker 在汉语拼写错误检测和修正任务的字符级和句子级准确性、精度、召回率和 F1 度量方面的表现是有效的。
Sep, 2022
本研究探讨了中文拼写纠错,提出了一种新的训练方法 Rephrasing Language Modeling,通过重新构造整个句子而非逐字符标记的方式来纠正拼写错误,取得了在细调和零样本测试中的最新最佳表现,超越了之前的方法,并能在与其他任务联合训练时学习到可迁移的语言表示。
Aug, 2023
本研究提出了一个 n-gram 遮蔽层,用于规避标签泄漏和错误干扰,并提出了一个新的点积门控机制,将语音和形态学信息与语义表示进行整合,进而提高了常见的 CSC 模型以及本文提出的方法在 SIGHAN 数据集上的性能。
May, 2023
基于 BERT 的模型在中文拼写检查任务方面表现出了显著的能力,然而传统的基于 BERT 的方法仍存在两个局限性:第一,虽然之前的研究发现明确的先验知识如词性标注对于拼写检查任务有益,但他们忽略了拼写错误会导致错误标签从而误导模型的事实;此外,他们忽视了 BERT 中间层所编码的隐含分层信息与不同的语言现象之间的相关性,从而导致了次优的准确性。我们提出了一种异构知识注入框架来减轻上述两个问题。为了整合明确的词性知识,我们采用了由高斯混合模型驱动的辅助任务策略。同时,为了整合编码器中的隐含的分层语言知识,我们提出了一种新颖的基于 n-gram 的逐层自注意力形式来生成多层表示。实验结果表明,我们提出的框架在四个强基准模型上都有稳定的性能提升,并且在两个数据集上优于先前的最先进方法。
Dec, 2023
本文提出了一种基于神经网络和 BERT 的错误指导拼音检查模型,支持高度并行化解码,通过引入新的损失函数融合错词集,提高了错词的辨别能力和纠错质量。研究证明,在基准测试上,该模型在纠错质量和计算速度方面均显著优于现有技术。
Jan, 2023
本文探讨了正确标记应如何更好地被利用以促进有效训练的文本错误纠正方法,并提出了一种基于随机蒙版的简单而有效的策略来实现这个目标。在汉语数据集的拼写错误纠正和语音识别错误纠正以及英语数据集的语法错误纠正实验中,我们的方法提高了校正精度。
Nov, 2022
本文提出了 SoftCorrect, 一种具有软错误检测机制的误差校正方法,该方法通过由专门设计的语言模型产生的一种概率来检测单词是否正确,然后设计了一种受限制的 CTC 损失,仅复制检测到的错误单词,以便解码器集中进行错误单词的更正
Dec, 2022
该论文提出了一种基于自我蒸馏对比学习方法的 BERT 修改方式,以适应汉语拼写检查任务所需的语音和字形信息,实验证明该方法可以提高汉语拼写检查准确率。
Oct, 2022
该研究使用错误一致掩蔽策略来为预训练创建数据,展示了 ECSpell 在一般基准上超越了先前的最先进模型,将可变的用户字典添加到处理零射领域适应问题的通用令牌分类基础拼写员中将进一步提高性能。
Mar, 2022