ACLJan, 2024

使用神经编辑距离模型将正字文言文词汇配对为标准等价词

TL;DR我们提供了一个新颖的语料库,其中包含 19 世纪美国文学作品中的正字异构词,并且用其对应的‘标准’词对进行了注释。我们训练了一组神经编辑距离模型来将这些变体与它们的标准形式进行配对,并将这些模型的性能与训练于 L2 英语学习者拼写错误文本的神经编辑距离模型进行了比较。最后,我们分析了这些模型在不同负样本生成策略下的相对性能,并对文学正字异构变化对字符串配对方法学的独特挑战提出了总结性的观点。