Apr, 2024

PORTULAN ExtraGLUE数据集和模型:启动葡萄牙语神经处理基准测试

TL;DR借助对葡萄牙语神经模型的研究,我们提供了一套用于多种语言处理任务的数据集合,以及针对这些下游任务进行细调的神经语言模型集合。通过使用最先进的翻译引擎将数据集从英语机器翻译成葡萄牙语,以与文献中的主流基准相结合,启动了葡萄牙语的对应数据集。由此产生的 PORTULAN ExtraGLUE 基准是未来葡萄牙语研究的基础,可以在后续工作中进行改进。类似地,我们使用低秩适应方法开发的相应细调神经语言模型作为基准可促进葡萄牙语神经处理的未来工作。所有数据集和模型都已开发并可用于葡萄牙语的两个变体:欧洲葡萄牙语和巴西葡萄牙语。