ACLApr, 2021
用于评估日语形态分析和词汇规范化的用户生成的文本语料库
User-Generated Text Corpus for Evaluating Japanese Morphological Analysis and Lexical Normalization
Shohei Higashiyama, Masao Utiyama, Taro Watanabe, Eiichiro Sumita
TL;DR该研究构建了一个公开的 929 句子的日语 UGT 语料库,用于评估和比较不同的 MA/LN 系统,实验结果表明,现有的 MA/LN 方法在非常规词汇和非标准形式方面表现较差,该语料库可作为进一步研究日语 UGT 的基准测试。