Oct, 2023

ArBanking77:意图检测的神经模型与现代及辩证阿拉伯语言的新数据集

TL;DR这篇论文介绍了 ArBanking77,这是一个在银行领域用于意图检测的大型阿拉伯语数据集。我们从原始的英文 Banking77 数据集进行了阿拉伯化和本土化处理,生成了 ArBanking77 数据集,其中包含了 31,404 个现代标准阿拉伯(MSA)和巴勒斯坦方言的查询,每个查询被分类为 77 个类别(意图)。此外,我们还提出了基于 AraBERT 的神经模型,经过在 ArBanking77 上微调后,在 MSA 和巴勒斯坦方言上分别获得了 0.9209 和 0.8995 的 F1 分数。我们进行了大量实验证明,在低资源环境下,该模型通过在部分数据上训练,并使用噪声查询进行扩充以模拟现实中自然语言处理系统(尤其是实时聊天查询)中的口语术语、错误和拼写错误。数据集和模型均可在此链接处公开获得。