神经网络翻译模型用于语法纠错
本研究通过在Moses tuning framework中应用M^2作为打分标准来研究自动语法纠错(GEC)任务的参数调整,发现对于纠错的稀疏特征进行优化时存在奇怪的行为,并提出了部分解决方案。最终在CoNLL-2014测试集上,我们引入了新的密集和稀疏特征,将现有的GEC技术水平提高至49.49% M^2,超过以往文献的41.75%的最高性能水平。
May, 2016
本文提出了一种利用SMT方法生成的n种翻译假设来提高GEC准确率的新方法,即利用分类器评分来选择适当的编辑或对n种翻译假设进行重新排序,并将这些方法应用于使用SMT方法的最新GEC系统中,实验结果表明,我们的方法在GEC基准测试数据集上的准确性比已发表的最佳结果有显着提高。
Jun, 2016
通过基于嵌套注意力层的混合神经模型,将神经机器翻译方法发展应用于语法纠错,实验证明该模型对单词或字符水平上的错误检测和修复均具有良好的效果,并在CoNLL-14基准测试数据集上明显优于以往的神经模型,尤其对小修改的局部错误有明显的改善。
Jul, 2017
本研究提出了一种基于多层卷积编码-解码神经网络的自动文本纠错方法,利用字符N-gram信息来初始化embeddings,通过attention机制捕捉局部文本语境并使用N-gram语言模型和编辑特征进行打分和融合,实现了比现有基于统计学习的方法更好的语法和流畅度的纠错效果。
Jan, 2018
本文将基于统计机器翻译和神经机器翻译的自动语法纠错方法相结合,形成一种新的系统,这个混合系统在CoNLL-2014和JFLEG基准测试上取得了最新的最佳结果。我们的分析显示,所创建的系统比迄今为止报告的任何其他GEC系统更接近达到人类水平的性能。
Apr, 2018
该论文提出了一套适用于大多数语法错误修正(GEC)环境的模型无关方法,包括添加源端噪音,领域自适应技术,GEC特定训练目标,单语数据的迁移学习以及集成独立训练的GEC模型和语言模型。这些方法的综合效果导致比现有最优神经GEC模型更好的表现,表现优于CoNLL-2014基准测试中以前最好的神经GEC系统超过10%M2,以及JFLEG测试集中的5.9%。
Apr, 2018
本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性,同时提出了一套用于测试神经机器翻译在处理语法错误上的JFLEG语法纠错语料库的西班牙语翻译。
Aug, 2018
介绍了一种基于语言模型和有限状态转换器的语法错误更正方法,与神经序列模型和基于短语的机器翻译相比具有更好的效果,同时无需大量的标注数据,并且在拥有标注数据的情况下,该方法也适用于基于短语的机器翻译。
Mar, 2019
提出了一种新颖的数据合成方法,以生成多样的句子对,用于改善语法错误纠正,该方法基于两个不同质量(即较差和较好)的机器翻译模型对。实验结果表明,我们的方法是有效的,可以与其他合成数据源相结合,以产生进一步的改进。
Nov, 2019
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020