本文探讨利用预训练模型及字形和语音信息提高中文拼写检查的实用性,并提出新的实用性检测方法。
Dec, 2022
该论文提出了一种基于自我蒸馏对比学习方法的 BERT 修改方式,以适应汉语拼写检查任务所需的语音和字形信息,实验证明该方法可以提高汉语拼写检查准确率。
Oct, 2022
本文提出了一种基于 SCOPE 的中文拼写纠错模型,该模型引入了中文发音预测辅助任务用于改进中文拼写检查,并在三个基准测试中实现了新的最高性能,证明了辅助任务的有效性和优越性。
本文提出一个基于多模态信息的汉语拼写检查系统 ReaLiSe 来检测和自动纠正用户输入的汉字中常见的误用问题,并在 SIGHAN 基准测试上表现出了明显的优势。
May, 2021
本文提出一种利用音形相似性知识并结合图卷积网络(SpellGCN)的方法,将其作为语言模型用于中文拼写检查(CSC)中,实现端到端训练,并在人工标注数据集上获得了优于先前模型的表现。
Apr, 2020
该论文介绍了一个由真实社交媒体数据构成的对拼音输入法产生的中文拼写错误进行检测和纠正的数据集(CSCD-IME),并提出了利用拼音输入法自动生成大规模高质量的伪数据的方法,实验结果表明,我们提出的伪数据构建方法能够更好地适应这种错误分布并提高 CSC 系统的性能。
Nov, 2022
本文提出了一种 LEAD 框架,该框架允许 CSC 模型从字典的语音、视觉和含义方面学习异构知识,并通过基于对比学习的训练方案来提高 CSC 模型的表示能力。实验证明该方法有效。
开发预训练模型和结合语音和图像信息使神经模型在中文拼写检查方面取得了高分,该研究通过构建不同目的的综合测试集,实现了这一典型模型范式并进行了实验,在结果的详细分析中发现了四个重要发现。
Jul, 2023
本研究探讨了中文拼写纠错,提出了一种新的训练方法 Rephrasing Language Modeling,通过重新构造整个句子而非逐字符标记的方式来纠正拼写错误,取得了在细调和零样本测试中的最新最佳表现,超越了之前的方法,并能在与其他任务联合训练时学习到可迁移的语言表示。
Aug, 2023
近年来,通过设计专门的预训练方法或引入辅助任务,中国拼写检查(CSC)得到了很大的改进,大多数方法通过端到端方式解决这个任务。本文提出将 CSC 的工作流程分解为检测、推理和搜索子任务,以更直接和高效地利用与中文语言相关的丰富外部知识。具体地,我们设计了一个即插即用的检测和推理模块,与现有的最先进的非自回归 CSC 模型兼容,进一步提升了它们的性能。我们发现,训练一个模型的检测和推理模块也有助于其他模型的表现。我们还研究了任务分解提供的主要可解释性。广泛的实验和详细的分析证明了所提出模块的有效性和竞争力。
Oct, 2023