丰富语义知识增强的大型语言模型在少样本汉语拼写检查中的应用

Mar, 2024

丰富语义知识增强的大型语言模型在少样本汉语拼写检查中的应用

Rich Semantic Knowledge Enhanced Large Language Models for Few-shot Chinese Spell Checking

Ming Dong, Yujing Chen, Miao Zhang, Hao Sun, Tingting He

TL;DR通过引入小部分具体的中文丰富语义结构，LLMs 在少样本场景下比基于 BERT 模型的方法表现更好，验证了我们提出框架的优越性。

Abstract

chinese spell checking (csc) is a widely used technology, which plays a vital role in speech to text (STT) and optical character recognition (OCR). Most of the existing →

chinese spell checking csc bert-based method rs-llm rich semantic information

发现论文，激发创造

汉语拼写校正作为语言模型的改写

本研究探讨了中文拼写纠错，提出了一种新的训练方法 Rephrasing Language Modeling，通过重新构造整个句子而非逐字符标记的方式来纠正拼写错误，取得了在细调和零样本测试中的最新最佳表现，超越了之前的方法，并能在与其他任务联合训练时学习到可迁移的语言表示。

Aug, 2023

C-LLM: 逐字学习检测中文拼写错误

我们提出了一种基于大型语言模型的中文拼写检查方法 C-LLM，该方法通过逐个字符检查错误，实现了字符级别的对齐，从而有效地缓解了与字符级别约束相关的问题。在两个中文拼写检查基准测试中的实验表明，C-LLM 相比现有方法平均提升了 10％，在一般场景下提升了 2.1％，在垂直领域场景中有显著的 12％改进，达到了最先进的性能。

Jun, 2024

读、听、看：利用多模态信息改善中文拼写检查

本文提出一个基于多模态信息的汉语拼写检查系统 ReaLiSe 来检测和自动纠正用户输入的汉字中常见的误用问题，并在 SIGHAN 基准测试上表现出了明显的优势。

May, 2021

基于 BERT 的中文拼写检查模型的层间注意力和高斯混合模型增强

基于 BERT 的模型在中文拼写检查任务方面表现出了显著的能力，然而传统的基于 BERT 的方法仍存在两个局限性：第一，虽然之前的研究发现明确的先验知识如词性标注对于拼写检查任务有益，但他们忽略了拼写错误会导致错误标签从而误导模型的事实；此外，他们忽视了 BERT 中间层所编码的隐含分层信息与不同的语言现象之间的相关性，从而导致了次优的准确性。我们提出了一种异构知识注入框架来减轻上述两个问题。为了整合明确的词性知识，我们采用了由高斯混合模型驱动的辅助任务策略。同时，为了整合编码器中的隐含的分层语言知识，我们提出了一种新颖的基于 n-gram 的逐层自注意力形式来生成多层表示。实验结果表明，我们提出的框架在四个强基准模型上都有稳定的性能提升，并且在两个数据集上优于先前的最先进方法。

Dec, 2023

重新思考用于中文拼写纠正的遮盖语言建模

通过发现 BERT 对中文拼写纠正的影响，本文提出随机蒙掉输入序列 20％的非错误标记是一种简单有效的提高语言模型和错误模型的技术，它可以被应用于任何模型架构，并在 SIGHAN 等基准测试中取得了新的最优结果

May, 2023

从词典学习：异构知识引导的中文拼写修正微调

本文提出了一种 LEAD 框架，该框架允许 CSC 模型从字典的语音、视觉和含义方面学习异构知识，并通过基于对比学习的训练方案来提高 CSC 模型的表示能力。实验证明该方法有效。

Oct, 2022

RSpell：领域自适应中文拼写检查的检索增强框架

我们提出了一种称为 RSpell 的检索增强的拼写检查框架，通过搜索相应的领域术语并将其合并到拼写检查模型中，来增强其错误纠正能力。通过结合拼音模糊匹配和输入，我们引入了一种自适应过程控制机制来动态调整外部知识对模型的影响，同时采用迭代策略加强了 RSpell 框架的推理能力。通过在法律、医学和官方文件撰写三个领域的 CSC 数据集上进行实验，结果表明 RSpell 在零样本和微调场景下均取得了最先进的性能，验证了检索增强的拼写检查框架的有效性。我们的代码可在 https URL 获取。

Aug, 2023

SDCL: 自我蒸馏对比学习用于中文拼写校对

该论文提出了一种基于自我蒸馏对比学习方法的 BERT 修改方式，以适应汉语拼写检查任务所需的语音和字形信息，实验证明该方法可以提高汉语拼写检查准确率。

Oct, 2022

uChecker：使用掩码预训练语言模型作为无监督中文拼写检查器

本文介绍了一个名为 uChecker 的框架，该框架采用无监督的方法对汉语拼写错误进行检测和修正，其中使用 BERT 这样的模型作为骨干模型，并采用混淆集引导的 MASKing 策略来优化模型训练。实验结果表明，uChecker 在汉语拼写错误检测和修正任务的字符级和句子级准确性、精度、召回率和 F1 度量方面的表现是有效的。

Sep, 2022

对中文拼写检查模型的领域自适应能力的实证研究

本文评估了几种典型的 CSC 模型在多个特定领域的适应能力，并测试了大型语言模型 ChatGPT 的性能。实验证明，CSC 模型在新的领域中性能明显下降。

Jan, 2024