Feb, 2024
AraSpider: 民主化的阿拉伯语到SQL
AraSpider: Democratizing Arabic-to-SQL
TL;DR本研究提出了AraSpider,这是首个用于改进阿拉伯语社区中自然语言处理(NLP)的Spider数据集的阿拉伯语版本。通过测试四种多语言翻译模型的效果来将英语转换为阿拉伯语,并评估两种模型在从阿拉伯文本生成SQL查询方面的能力。结果表明,使用回译能显著提高ChatGPT 3.5和SQLCoder模型的性能,这两个模型在Spider数据集中被认为是顶尖的表现者。值得注意的是,ChatGPT 3.5展现了高质量的翻译能力,而SQLCoder在文本到SQL任务上表现出色。该研究强调在阿拉伯语NLP任务中,融入语境架构并采用回译策略以提高模型性能的重要性。此外,提供了详细的方法可复现性和将数据集翻译为其他语言的方法,突显了该研究在促进透明度和协作知识共享方面的承诺。总的来说,这些贡献推动了NLP研究的发展,增强了阿拉伯语研究人员的能力,并丰富了全球关于语言理解和数据库查询的讨论。