使用嵌套 RNN 模型和伪训练数据进行拼写错误纠正
本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法,即通过改进预训练语言模型的微调,将拼写纠错看作一个序列标注任务,并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。
Nov, 2020
本研究提出了一种基于多层卷积编码 - 解码神经网络的自动文本纠错方法,利用字符 N-gram 信息来初始化 embeddings,通过 attention 机制捕捉局部文本语境并使用 N-gram 语言模型和编辑特征进行打分和融合,实现了比现有基于统计学习的方法更好的语法和流畅度的纠错效果。
Jan, 2018
使用不同的 seq2seq 模型架构(如递归神经网络(RNN)和 Transformer)和人工数据生成进行错误注入,本研究介绍了一种用于阿拉伯语拼写纠正的框架 AraSpell,并通过彻底的实验研究提供了所提方法的有效性的经验论据,其与标记数据相比,词错误率(WER)和字符错误率(CER)分别达到了 4.8% 和 1.11%,与标记数据相比,CER 分别为 2.9%,WER 为 10.65%。这些结果都是在一个包含 100K 个句子的测试集上获得的。
May, 2024
本文介绍了一种基于神经网络的自然语言校正方法,该方法以字符级别操作避免了词汇表外的问题,并展示了在语言学习者论坛收集的数据集上的灵活性和性能。与语言建模相结合后,该方法在 CoNLL 2014 共享任务中实现了最先进的 $F_{0.5}$- 分数。
Mar, 2016
通过基于嵌套注意力层的混合神经模型,将神经机器翻译方法发展应用于语法纠错,实验证明该模型对单词或字符水平上的错误检测和修复均具有良好的效果,并在 CoNLL-14 基准测试数据集上明显优于以往的神经模型,尤其对小修改的局部错误有明显的改善。
Jul, 2017
本文介绍了一种用于纠正语法错误的低资源序列到序列任务方法,首先使用现实的噪声函数生成大型未注释语料库的错误版本,然后利用这些并行语料库进行 Transformer 模型的预训练,并通过顺序迁移学习将这些模型适应于测试集的领域和风格。同时结合上下文感知的神经拼写检查器,我们的系统在 ACL 2019 BEA 共享任务中取得了竞争力的结果。我们公开代码与材料以便复现。
Jul, 2019
使用递归神经网络 (RNNs) 生成自动化反馈以修复编程任务中的语法错误,可以完全修复 31.69% 的提交并部分修正 6.39% 的提交。
Mar, 2016
该研究提出了一种新方法以训练拼写纠错模型来纠正注意力机制序列到序列语音识别模型中的错误,从而改进了性能。在 LibriSpeech 数据集上,该模型相对于基线模型的相对改进为 18.6%,相对于使用扩展语言模型重新评分的 n-best 列表的改进为 29.0%。
Feb, 2019
本文提出一种基于深度神经网络的文本校正和完成系统,结合字符级卷积神经网络和门控循环单元编码器以及单词级门控循环单元注意解码器,实现对有错误文本的自动纠正和完成功能,并在有限领域内取得了良好效果。
Sep, 2017
使用新颖的基于拼写错误 n-gram 映射的候选检索算法和 BERT 架构的非自回归神经模型,相较于基线 ASR 系统,在口语化维基百科上的实验显示,字错误率提高了 21.4%。
Jun, 2023