基于反向对比学习的中文拼写检查框架

Oct, 2022

基于反向对比学习的中文拼写检查框架

A Chinese Spelling Check Framework Based on Reverse Contrastive Learning

Nankai Lin, Sihui Fu, Xiaotian Lin, Shengyi Jiang, Aimin Yang

TL;DR通过提出反向对比学习策略及引入三个模块：语言表示、拼写检查和反向对比学习，构建了一种新的中文拼写检查框架。实验证明，此框架可与现有模型结合，实现最先进的性能。

Abstract

chinese spelling check is a task to detect and correct spelling mistakes in Chinese text. Existing research aims to enhance the text representation and use multi-source information to improve the detection and co

chinese spelling check contrastive learning text representation confusable words state-of-the-art performance

发现论文，激发创造

SDCL: 自我蒸馏对比学习用于中文拼写校对

该论文提出了一种基于自我蒸馏对比学习方法的 BERT 修改方式，以适应汉语拼写检查任务所需的语音和字形信息，实验证明该方法可以提高汉语拼写检查准确率。

Oct, 2022

RSpell：领域自适应中文拼写检查的检索增强框架

我们提出了一种称为 RSpell 的检索增强的拼写检查框架，通过搜索相应的领域术语并将其合并到拼写检查模型中，来增强其错误纠正能力。通过结合拼音模糊匹配和输入，我们引入了一种自适应过程控制机制来动态调整外部知识对模型的影响，同时采用迭代策略加强了 RSpell 框架的推理能力。通过在法律、医学和官方文件撰写三个领域的 CSC 数据集上进行实验，结果表明 RSpell 在零样本和微调场景下均取得了最先进的性能，验证了检索增强的拼写检查框架的有效性。我们的代码可在 https URL 获取。

Aug, 2023

中文拼写检查的全面评估和分析研究

开发预训练模型和结合语音和图像信息使神经模型在中文拼写检查方面取得了高分，该研究通过构建不同目的的综合测试集，实现了这一典型模型范式并进行了实验，在结果的详细分析中发现了四个重要发现。

Jul, 2023

汉语拼写校正作为语言模型的改写

本研究探讨了中文拼写纠错，提出了一种新的训练方法 Rephrasing Language Modeling，通过重新构造整个句子而非逐字符标记的方式来纠正拼写错误，取得了在细调和零样本测试中的最新最佳表现，超越了之前的方法，并能在与其他任务联合训练时学习到可迁移的语言表示。

Aug, 2023

探索与利用：提高中文拼写纠正模型的两种方式

本文介绍了一种利用序列到序列学习和神经网络的方法来进行汉语拼写纠错，通过不断发现模型的弱点生成更有价值的训练实例并进行任务特定的预训练，逐步将生成的对抗性示例添加到训练集中的对抗性训练方法，可以提高多个 CSC 模型的泛化能力和鲁棒性，达到了 CSC 任务的最先进表现。

May, 2021

读、听、看：利用多模态信息改善中文拼写检查

本文提出一个基于多模态信息的汉语拼写检查系统 ReaLiSe 来检测和自动纠正用户输入的汉字中常见的误用问题，并在 SIGHAN 基准测试上表现出了明显的优势。

May, 2021

SpellGCN：将音形相似性融入语言模型中用于中文拼写检查

本文提出一种利用音形相似性知识并结合图卷积网络（SpellGCN）的方法，将其作为语言模型用于中文拼写检查（CSC）中，实现端到端训练，并在人工标注数据集上获得了优于先前模型的表现。

Apr, 2020

从词典学习：异构知识引导的中文拼写修正微调

本文提出了一种 LEAD 框架，该框架允许 CSC 模型从字典的语音、视觉和含义方面学习异构知识，并通过基于对比学习的训练方案来提高 CSC 模型的表示能力。实验证明该方法有效。

Oct, 2022

过去的错误是未来的智慧：基于误差驱动的对比概率优化的中文拼写检查

提出了一个错误驱动的对比概率优化（ECOPO）框架，通过优化预训练语言模型的知识表示，指导模型避免预测常见字符，提高中文拼写检查的性能。在 SIGHAN 数据集上的实验和分析表明，ECOPO 是简单但有效的。

Mar, 2022

uChecker：使用掩码预训练语言模型作为无监督中文拼写检查器

本文介绍了一个名为 uChecker 的框架，该框架采用无监督的方法对汉语拼写错误进行检测和修正，其中使用 BERT 这样的模型作为骨干模型，并采用混淆集引导的 MASKing 策略来优化模型训练。实验结果表明，uChecker 在汉语拼写错误检测和修正任务的字符级和句子级准确性、精度、召回率和 F1 度量方面的表现是有效的。

Sep, 2022