ACLApr, 2021

用于评估日语形态分析和词汇规范化的用户生成的文本语料库

TL;DR该研究构建了一个公开的 929 句子的日语 UGT 语料库,用于评估和比较不同的 MA/LN 系统,实验结果表明,现有的 MA/LN 方法在非常规词汇和非标准形式方面表现较差,该语料库可作为进一步研究日语 UGT 的基准测试。