ParsiNLU: 波斯语语言理解挑战套件
本文提出了一种用于波斯语的单语 BERT 模型(ParsBERT),并采用庞大的数据集进行预训练和各种自然语言处理任务,证明该模型相对于其他结构和多语言模型具有更好的性能。
May, 2020
该研究介绍了一个用于波斯语自然语言推理任务的新数据集,名为 FarsTail。FarsTail 数据集包括 10,367 个样本,该数据集同时提供波斯语以及用于非波斯语研究人员的索引格式。通过对该数据集进行评测和分析,得出目前 NLP 任务中深度学习方法在该领域的表现差距较大,该数据集可以为不同语言的自然语言处理研究提供坚实的基础。
Sep, 2020
本研究介绍了第一个大型波斯语语言模型 PersianLLaMA,在波斯文本和数据集上训练,通过最新的评估方法在波斯文本的生成和理解任务中表现出色,对于发展波斯语自然语言处理,特别是文本生成方面如聊天机器人、问答、机器翻译和文本摘要等任务可作为宝贵资源。
Dec, 2023
本文介绍了针对印度尼西亚低资源语言的第一次并行资源开发,包括数据集、多任务基准、词汇表和印度尼西亚 - 英文平行数据集,并描述了创建这些资源的挑战。该研究的目的是激发有关印度尼西亚和其他代表性不足语言的自然语言处理研究。
May, 2022
本研究引入了印度尼西亚自然语言理解(IndoNLU)任务的第一个巨大资源及其预训练模型 IndoBERT,包括从单句分类到对句子序列标记的 12 个任务,并提供了基准模型和评估框架以使每个人都能评估自己的系统性能。
Sep, 2020
本文通过众包开发了包含近 22k 个发言、15 个不同领域和 1061 个对话的波斯语对话数据集,并对其进行了标注以训练模型。同时,我们提出了一些用于自然语言理解(NLU)任务的基准模型,其中,意图分类的 F-1 得分约为 91%,实体抽取的 F-1 得分约为 93%,这可作为未来研究的基准。
Jan, 2024
对印尼本土语言进行案例研究的结果表明,原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质,有助于推广自然语言处理技术到较少研究的语言领域。
Sep, 2023
通过将机器翻译应用于英语数据集,本研究聚焦于生成波斯语命名实体数据集。通过实验评估,最高的 F1 分数是 CoNLL 2003 数据集的 85.11%。本研究的结果强调了机器翻译在为低资源语言(如波斯语)创建高质量的命名实体识别数据集方面的潜力,并提供了有关机器翻译在此任务中有效性的见解。此外,此方法可用于增强低资源语言中的数据或创建嘈杂数据以使命名实体系统更加稳健并改进它们。
Feb, 2023