May, 2023

使用合成和精选语料库进行字节级语法错误校正

TL;DR本文讨论了使用不同子词单元和字节级编码方法对语法错误校正任务进行序列到序列学习的影响。使用含错误生成管道的合成数据和手动更正的真实数据对不同模型进行训练和微调,证明了字节级编码方法不仅可以更好地纠正简单的拼写错误,还可以在语义、风格和语法等方面更好地进行纠错,尤其适用于富有形态学特征的语言。