中文纠错的分离语音表示

ACLMay, 2023

Disentangled Phonetic Representation for Chinese Spelling Correction

Zihong Liang, Xiaojun Quan, Qifan Wang

TL;DR该研究提出了一种新的中文拼写纠错方法，通过引入拼音信息，并使用拼音到字符目标学习有用的拼音表示。实验证明该方法在使用语音信息方面具有优越性。

Abstract

chinese spelling correction (CSC) aims to detect and correct erroneous characters in Chinese texts. Although efforts have been made to introduce phonetic information (Hanyu Pinyin) in this task, they typically me

chinese spelling correction phonetic information pinyin-to-character objective self-distillation module csc benchmarks

发现论文，激发创造

探究汉字拼写检查中的字形音系信息：成效与展望

本文探讨利用预训练模型及字形和语音信息提高中文拼写检查的实用性，并提出新的实用性检测方法。

Dec, 2022

SDCL: 自我蒸馏对比学习用于中文拼写校对

该论文提出了一种基于自我蒸馏对比学习方法的 BERT 修改方式，以适应汉语拼写检查任务所需的语音和字形信息，实验证明该方法可以提高汉语拼写检查准确率。

Oct, 2022

通过字符发音预测提升中文拼写检查：自适应性和粒度的影响

本文提出了一种基于 SCOPE 的中文拼写纠错模型，该模型引入了中文发音预测辅助任务用于改进中文拼写检查，并在三个基准测试中实现了新的最高性能，证明了辅助任务的有效性和优越性。

Oct, 2022

读、听、看：利用多模态信息改善中文拼写检查

本文提出一个基于多模态信息的汉语拼写检查系统 ReaLiSe 来检测和自动纠正用户输入的汉字中常见的误用问题，并在 SIGHAN 基准测试上表现出了明显的优势。

May, 2021

SpellGCN：将音形相似性融入语言模型中用于中文拼写检查

本文提出一种利用音形相似性知识并结合图卷积网络（SpellGCN）的方法，将其作为语言模型用于中文拼写检查（CSC）中，实现端到端训练，并在人工标注数据集上获得了优于先前模型的表现。

Apr, 2020

CSCD-IME：拼音输入法生成的拼写错误修正

该论文介绍了一个由真实社交媒体数据构成的对拼音输入法产生的中文拼写错误进行检测和纠正的数据集（CSCD-IME），并提出了利用拼音输入法自动生成大规模高质量的伪数据的方法，实验结果表明，我们提出的伪数据构建方法能够更好地适应这种错误分布并提高 CSC 系统的性能。

Nov, 2022

从词典学习：异构知识引导的中文拼写修正微调

本文提出了一种 LEAD 框架，该框架允许 CSC 模型从字典的语音、视觉和含义方面学习异构知识，并通过基于对比学习的训练方案来提高 CSC 模型的表示能力。实验证明该方法有效。

Oct, 2022

中文拼写检查的全面评估和分析研究

开发预训练模型和结合语音和图像信息使神经模型在中文拼写检查方面取得了高分，该研究通过构建不同目的的综合测试集，实现了这一典型模型范式并进行了实验，在结果的详细分析中发现了四个重要发现。

Jul, 2023

汉语拼写校正作为语言模型的改写

本研究探讨了中文拼写纠错，提出了一种新的训练方法 Rephrasing Language Modeling，通过重新构造整个句子而非逐字符标记的方式来纠正拼写错误，取得了在细调和零样本测试中的最新最佳表现，超越了之前的方法，并能在与其他任务联合训练时学习到可迁移的语言表示。

Aug, 2023

一种令人沮丧却容易使用的即插即用的用于中文拼写检查的检测和推理模块

近年来，通过设计专门的预训练方法或引入辅助任务，中国拼写检查（CSC）得到了很大的改进，大多数方法通过端到端方式解决这个任务。本文提出将 CSC 的工作流程分解为检测、推理和搜索子任务，以更直接和高效地利用与中文语言相关的丰富外部知识。具体地，我们设计了一个即插即用的检测和推理模块，与现有的最先进的非自回归 CSC 模型兼容，进一步提升了它们的性能。我们发现，训练一个模型的检测和推理模块也有助于其他模型的表现。我们还研究了任务分解提供的主要可解释性。广泛的实验和详细的分析证明了所提出模块的有效性和竞争力。

Oct, 2023