ParsiNLU: 波斯语语言理解挑战套件

ACLDec, 2020

ParsiNLU: A Suite of Language Understanding Challenges for Persian

Daniel Khashabi, Arman Cohan, Siamak Shakeri, Pedram Hosseini, Pouya Pezeshkpour...

TL;DR本文介绍第一个波斯语 NLU 基准数据集 ParsiNLU，并在此基础上与人类表现进行比较，为波斯语理解的研究和进展提供了有价值的洞察力。

Abstract

Despite the progress made in recent years in addressing natural language understanding (nlu) challenges, the majority of this progress remains to be concentrated on resource-rich languages like English. This work focuses on →

persian language nlu parsinlu evaluation datasets language understanding

发现论文，激发创造

联合意图探测和槽位填充的波斯语基准

本文研究自然语言理解在科技中的重要性以及为低资源语言创建波斯语基准 ATIS dataset ，采用最先进的方法对其进行意图检测和填槽

Mar, 2023

ParsBERT：基于 Transformer 的波斯语语言理解模型

本文提出了一种用于波斯语的单语 BERT 模型（ParsBERT），并采用庞大的数据集进行预训练和各种自然语言处理任务，证明该模型相对于其他结构和多语言模型具有更好的性能。

May, 2020

FarsTail：波斯语自然语言推理数据集

该研究介绍了一个用于波斯语自然语言推理任务的新数据集，名为 FarsTail。FarsTail 数据集包括 10,367 个样本，该数据集同时提供波斯语以及用于非波斯语研究人员的索引格式。通过对该数据集进行评测和分析，得出目前 NLP 任务中深度学习方法在该领域的表现差距较大，该数据集可以为不同语言的自然语言处理研究提供坚实的基础。

Sep, 2020

波斯语 LLaMA: 迈向建立首个波斯语大型语言模型

本研究介绍了第一个大型波斯语语言模型 PersianLLaMA，在波斯文本和数据集上训练，通过最新的评估方法在波斯文本的生成和理解任务中表现出色，对于发展波斯语自然语言处理，特别是文本生成方面如聊天机器人、问答、机器翻译和文本摘要等任务可作为宝贵资源。

Dec, 2023

NusaX：10 种印度尼西亚本地语言的多语言并行情感数据集

本文介绍了针对印度尼西亚低资源语言的第一次并行资源开发，包括数据集、多任务基准、词汇表和印度尼西亚 - 英文平行数据集，并描述了创建这些资源的挑战。该研究的目的是激发有关印度尼西亚和其他代表性不足语言的自然语言处理研究。

May, 2022

IndoNLU: 评估印度尼西亚语自然语言理解的基准和资源

本研究引入了印度尼西亚自然语言理解（IndoNLU）任务的第一个巨大资源及其预训练模型 IndoBERT，包括从单句分类到对句子序列标记的 12 个任务，并提供了基准模型和评估框架以使每个人都能评估自己的系统性能。

Sep, 2020

评估跨语言句子表示的 XNLI

本文提出了 XNLI 数据集用于跨语言句子理解的评估，并研究了多语言句子理解的基准和挑战。

Sep, 2018

PerSHOP -- 波斯购物对话系统建模的数据集

本文通过众包开发了包含近 22k 个发言、15 个不同领域和 1061 个对话的波斯语对话数据集，并对其进行了标注以训练模型。同时，我们提出了一些用于自然语言理解（NLU）任务的基准模型，其中，意图分类的 F-1 得分约为 91％，实体抽取的 F-1 得分约为 93％，这可作为未来研究的基准。

Jan, 2024

NusaWrites：为代表性和极度资源匮乏的语言构建高质量语料库

对印尼本土语言进行案例研究的结果表明，原生说话者通过段落撰写所生成的数据集在词汇多样性和文化内容方面优质，有助于推广自然语言处理技术到较少研究的语言领域。

Sep, 2023

机器翻译用于生成命名实体数据集的潜力探索：波斯语和英语之间的案例研究

通过将机器翻译应用于英语数据集，本研究聚焦于生成波斯语命名实体数据集。通过实验评估，最高的 F1 分数是 CoNLL 2003 数据集的 85.11％。本研究的结果强调了机器翻译在为低资源语言（如波斯语）创建高质量的命名实体识别数据集方面的潜力，并提供了有关机器翻译在此任务中有效性的见解。此外，此方法可用于增强低资源语言中的数据或创建嘈杂数据以使命名实体系统更加稳健并改进它们。

Feb, 2023