中文拼写检查的全面评估和分析研究

Jul, 2023

中文拼写检查的全面评估和分析研究

A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check

Xunjian Yin, Xiaojun Wan

TL;DR开发预训练模型和结合语音和图像信息使神经模型在中文拼写检查方面取得了高分，该研究通过构建不同目的的综合测试集，实现了这一典型模型范式并进行了实验，在结果的详细分析中发现了四个重要发现。

Abstract

With the development of pre-trained models and the incorporation of phonetic and graphic information, neural models have achieved high scores in Chinese Spelling Check (CSC). However, it does not provide a compre

pre-trained models neural models chinese spelling check phonetic and graphic information test sets

发现论文，激发创造

探究汉字拼写检查中的字形音系信息：成效与展望

本文探讨利用预训练模型及字形和语音信息提高中文拼写检查的实用性，并提出新的实用性检测方法。

Dec, 2022

对中文拼写检查模型的领域自适应能力的实证研究

本文评估了几种典型的 CSC 模型在多个特定领域的适应能力，并测试了大型语言模型 ChatGPT 的性能。实验证明，CSC 模型在新的领域中性能明显下降。

Jan, 2024

SpellGCN：将音形相似性融入语言模型中用于中文拼写检查

本文提出一种利用音形相似性知识并结合图卷积网络（SpellGCN）的方法，将其作为语言模型用于中文拼写检查（CSC）中，实现端到端训练，并在人工标注数据集上获得了优于先前模型的表现。

Apr, 2020

探索与利用：提高中文拼写纠正模型的两种方式

本文介绍了一种利用序列到序列学习和神经网络的方法来进行汉语拼写纠错，通过不断发现模型的弱点生成更有价值的训练实例并进行任务特定的预训练，逐步将生成的对抗性示例添加到训练集中的对抗性训练方法，可以提高多个 CSC 模型的泛化能力和鲁棒性，达到了 CSC 任务的最先进表现。

May, 2021

读、听、看：利用多模态信息改善中文拼写检查

本文提出一个基于多模态信息的汉语拼写检查系统 ReaLiSe 来检测和自动纠正用户输入的汉字中常见的误用问题，并在 SIGHAN 基准测试上表现出了明显的优势。

May, 2021

从词典学习：异构知识引导的中文拼写修正微调

本文提出了一种 LEAD 框架，该框架允许 CSC 模型从字典的语音、视觉和含义方面学习异构知识，并通过基于对比学习的训练方案来提高 CSC 模型的表示能力。实验证明该方法有效。

Oct, 2022

通过字符发音预测提升中文拼写检查：自适应性和粒度的影响

本文提出了一种基于 SCOPE 的中文拼写纠错模型，该模型引入了中文发音预测辅助任务用于改进中文拼写检查，并在三个基准测试中实现了新的最高性能，证明了辅助任务的有效性和优越性。

Oct, 2022

一种令人沮丧却容易使用的即插即用的用于中文拼写检查的检测和推理模块

近年来，通过设计专门的预训练方法或引入辅助任务，中国拼写检查（CSC）得到了很大的改进，大多数方法通过端到端方式解决这个任务。本文提出将 CSC 的工作流程分解为检测、推理和搜索子任务，以更直接和高效地利用与中文语言相关的丰富外部知识。具体地，我们设计了一个即插即用的检测和推理模块，与现有的最先进的非自回归 CSC 模型兼容，进一步提升了它们的性能。我们发现，训练一个模型的检测和推理模块也有助于其他模型的表现。我们还研究了任务分解提供的主要可解释性。广泛的实验和详细的分析证明了所提出模块的有效性和竞争力。

Oct, 2023

用最近邻算法进行中文拼写检查

本篇论文介绍了一种新的中文拼写检查方法 InfoKNN-CSC，通过线性插值标准 CSC 模型和 kNN 模型，详细考虑了令牌和上下文的音、形、义信息，并且基于 n-gram 值和输入执行了重新排序方法。针对 SIGHAN 基准测试，实验结果表明，该模型取得了业内领先水平并且比现有方法有着实质性的改进。

Nov, 2022

基于 BERT 的中文拼写检查模型的层间注意力和高斯混合模型增强

基于 BERT 的模型在中文拼写检查任务方面表现出了显著的能力，然而传统的基于 BERT 的方法仍存在两个局限性：第一，虽然之前的研究发现明确的先验知识如词性标注对于拼写检查任务有益，但他们忽略了拼写错误会导致错误标签从而误导模型的事实；此外，他们忽视了 BERT 中间层所编码的隐含分层信息与不同的语言现象之间的相关性，从而导致了次优的准确性。我们提出了一种异构知识注入框架来减轻上述两个问题。为了整合明确的词性知识，我们采用了由高斯混合模型驱动的辅助任务策略。同时，为了整合编码器中的隐含的分层语言知识，我们提出了一种新颖的基于 n-gram 的逐层自注意力形式来生成多层表示。实验结果表明，我们提出的框架在四个强基准模型上都有稳定的性能提升，并且在两个数据集上优于先前的最先进方法。

Dec, 2023