- AraSpell:一种用于阿拉伯语拼写纠正的深度学习方法
使用不同的 seq2seq 模型架构(如递归神经网络(RNN)和 Transformer)和人工数据生成进行错误注入,本研究介绍了一种用于阿拉伯语拼写纠正的框架 AraSpell,并通过彻底的实验研究提供了所提方法的有效性的经验论据,其与标 - 多教师蒸馏用于多语言拼写校正
我们使用多教师蒸馏的方法解决了多语言自然语言处理中的拼写纠正挑战,并通过实验证明这种方法产生了高效的拼写纠正模型,满足部署服务的严格延迟要求。
- GIO:梯度信息优化的训练数据集选择
Gradient Information Optimization(GIO)是一种高度可扩展的、任务不可知的数据选择方法,可在仅需要一小组代表目标分布的(未标记的)示例的情况下,训练具有优秀结果的模型。
- 使用强大的拼写校正器来使塞内加尔沃洛夫语言复兴
本研究应用深度学习技术解决 Wolof 语言拼写纠错的问题,通过生成合成数据的方式减轻低资源语言没有语料库的限制,同时还探究了不同子词处理方法对模型性能的影响。
- 矫正真实世界的拼写错误:一种新的混合方法
本文提出了一种新的混合方法,该方法结合了统计和句法知识来检测和纠正现实世界中的单词拼写错误,并使用 Constraint Grammar(CG)区分搜索空间中一组校正候选项。
- 使用三元组进行实词错误修正:修正句子中的多个错误
本研究比较 Mays, Damerau 和 Mercer 提出的实际单词错误校正模型,并提出了新的改进方法,利用概率上下文无关文法(PCFG)来检测和纠正句子中的多个实际单词错误。在 Wall Street Journal 语料库上的测试表 - EMNLP只有 400 个样本!重新审视自动生成拼音规则对菲律宾语拼写规范化的有效性
本研究提出了一种基于 N-Gram 与 Damerau Levenshtein 距离模型的自动规则抽取方法,这种模型利用少量的数据进行训练,实现了良好的性能,并且在没有足够数据时,传统的方法胜过复杂的深度学习模型。
- ABB-BERT:用于消歧缩写和缩略语的 BERT 模型
本文介绍了一种基于 BERT 模型的 ABB-BERT 模型,旨在解决包含缩写和收缩词的模糊语言的拼写纠正问题。该模型可以从成千上万的选项中对它们进行排名,并可在 Wikipedia 文本上进行训练,以便在领域或个人方面实现更好的性能。
- 在线手写拼写纠正
介绍了 Inkorrect,一种数据和标签高效的在线手写(数字墨水)拼写校正方法,提出了新的自动评估指标来匹配人类感知,通过建立不同 Pareto 前沿模型的系列,解决识别和相似度的平衡问题。
- EMNLP上下文中的结构化缩写扩展
该研究探讨了在上下文中恢复规范化的缩写消息的任务,开发了两种强大的基准线来进行缩写扩展,并生成了一个大型的开源缩写数据集。
- EMNLP基于上下文的独立神经拼写校正
本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法,即通过改进预训练语言模型的微调,将拼写纠错看作一个序列标注任务,并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。
- EMNLPNeuSpell: 一个神经拼写纠正工具包
介绍 NeuSpell, 一个用于英语拼写纠正的开源工具包,其中包含十个不同的模型,并对来自多个来源的自然发生的拼写错误进行基准测试。通过训练使用上下文中的拼写错误,以及使用上下文表示,我们的工具包可以提高纠正率 9%(绝对值),在许多潜在 - COLING将传统序列到序列模型与编码器 - 解码器神经网络在单调字符串翻译任务上进行比较
本文研究了使用编码 - 解码神经模型在 OCR 校正、拼写校正、音素转换和词形还原等方面的表现,以及与其他传统方法和更专业的模型进行了比较。
- EMNLP基于监督学习的阿拉伯语拼写纠正
利用 QALB 语料库中提供的经过标注的代表有错误和更正版本的句子,本文的系统使用不同的机器学习模型对四种类型的拼写错误(修改、前添加、拆分和合并)进行修正,最终在 QALB 2014 年 “自动阿拉伯语错误修正” 任务中获得了 6 名中的 - 应用 Winnow 进行上下文敏感的拼写纠正
本文将基于 Winnow 的算法应用于自然语言处理的一项任务:上下文敏感的拼写纠正,并比较它与使用贝叶斯分类器的一种基于统计的方法。研究发现,当使用全套特征时,Winnow 能够充分发挥新特征的优势并成功地击败贝叶斯;同时,在遇到与训练集不 - 容错有限状态识别及其在形态分析和拼写纠错中的应用
本文介绍了一个可以对被基础有限状态识别器识别的任何字符串进行轻微偏差容错识别的算法,它可以应用于形态分析、拼写校正和信息检索等领域,只要该语言的词汇形态可以用一个单一(可能是非常大的)有限状态传递器完整地捕获。实验结果表明,该算法在诸如英语