丰富语义知识增强的大型语言模型在少样本汉语拼写检查中的应用
本研究探讨了中文拼写纠错,提出了一种新的训练方法 Rephrasing Language Modeling,通过重新构造整个句子而非逐字符标记的方式来纠正拼写错误,取得了在细调和零样本测试中的最新最佳表现,超越了之前的方法,并能在与其他任务联合训练时学习到可迁移的语言表示。
Aug, 2023
我们提出了一种基于大型语言模型的中文拼写检查方法 C-LLM,该方法通过逐个字符检查错误,实现了字符级别的对齐,从而有效地缓解了与字符级别约束相关的问题。在两个中文拼写检查基准测试中的实验表明,C-LLM 相比现有方法平均提升了 10%,在一般场景下提升了 2.1%,在垂直领域场景中有显著的 12%改进,达到了最先进的性能。
Jun, 2024
本文提出一个基于多模态信息的汉语拼写检查系统 ReaLiSe 来检测和自动纠正用户输入的汉字中常见的误用问题,并在 SIGHAN 基准测试上表现出了明显的优势。
May, 2021
基于 BERT 的模型在中文拼写检查任务方面表现出了显著的能力,然而传统的基于 BERT 的方法仍存在两个局限性:第一,虽然之前的研究发现明确的先验知识如词性标注对于拼写检查任务有益,但他们忽略了拼写错误会导致错误标签从而误导模型的事实;此外,他们忽视了 BERT 中间层所编码的隐含分层信息与不同的语言现象之间的相关性,从而导致了次优的准确性。我们提出了一种异构知识注入框架来减轻上述两个问题。为了整合明确的词性知识,我们采用了由高斯混合模型驱动的辅助任务策略。同时,为了整合编码器中的隐含的分层语言知识,我们提出了一种新颖的基于 n-gram 的逐层自注意力形式来生成多层表示。实验结果表明,我们提出的框架在四个强基准模型上都有稳定的性能提升,并且在两个数据集上优于先前的最先进方法。
Dec, 2023
通过发现 BERT 对中文拼写纠正的影响,本文提出随机蒙掉输入序列 20%的非错误标记是一种简单有效的提高语言模型和错误模型的技术,它可以被应用于任何模型架构,并在 SIGHAN 等基准测试中取得了新的最优结果
May, 2023
本文提出了一种 LEAD 框架,该框架允许 CSC 模型从字典的语音、视觉和含义方面学习异构知识,并通过基于对比学习的训练方案来提高 CSC 模型的表示能力。实验证明该方法有效。
Oct, 2022
我们提出了一种称为 RSpell 的检索增强的拼写检查框架,通过搜索相应的领域术语并将其合并到拼写检查模型中,来增强其错误纠正能力。通过结合拼音模糊匹配和输入,我们引入了一种自适应过程控制机制来动态调整外部知识对模型的影响,同时采用迭代策略加强了 RSpell 框架的推理能力。通过在法律、医学和官方文件撰写三个领域的 CSC 数据集上进行实验,结果表明 RSpell 在零样本和微调场景下均取得了最先进的性能,验证了检索增强的拼写检查框架的有效性。我们的代码可在 https URL 获取。
Aug, 2023
该论文提出了一种基于自我蒸馏对比学习方法的 BERT 修改方式,以适应汉语拼写检查任务所需的语音和字形信息,实验证明该方法可以提高汉语拼写检查准确率。
Oct, 2022
本文介绍了一个名为 uChecker 的框架,该框架采用无监督的方法对汉语拼写错误进行检测和修正,其中使用 BERT 这样的模型作为骨干模型,并采用混淆集引导的 MASKing 策略来优化模型训练。实验结果表明,uChecker 在汉语拼写错误检测和修正任务的字符级和句子级准确性、精度、召回率和 F1 度量方面的表现是有效的。
Sep, 2022
本文评估了几种典型的 CSC 模型在多个特定领域的适应能力,并测试了大型语言模型 ChatGPT 的性能。实验证明,CSC 模型在新的领域中性能明显下降。
Jan, 2024