Jun, 2023

Jamp:控制的日语时间推理数据集,用于评估语言模型的泛化能力

TL;DR本研究提出了一个针对时态推断的日语NLI基准Jamp,用于评估单语/多语言模型的泛化能力;在评估中发现,语言模型在某些特定的语言现象,例如习惯性表达中,存在应对困难,因此有必要研究跨语言的有效NLI模型。