Jul, 2024

ATHAR:一个高质量和多样化的古典阿拉伯语到英语翻译数据集

TL;DR本研究解决了古典阿拉伯语翻译数据集稀缺的问题,此类数据集通常范围和主题有限,影响翻译系统的开发。我们提出了ATHAR数据集,包含66,000个高质量的古典阿拉伯语到英语的翻译样本,涉及科学、文化和哲学等广泛主题。研究结果表明,现有的大型语言模型在利用该数据集进行微调或纳入预训练管道时可显著提升性能。