Jul, 2023

GujiBERT 和 GujiGPT:建立智能信息处理基础语言模型的古代文本

TL;DR我们介绍了古籍 BERT 和古籍 GPT 这两个基础模型,通过在包含简体和繁体中文字符的数据集上训练,这两个模型可以有效地处理与古籍相关的自然语言处理任务,这表明了使用自监督方法进一步训练模型能够提高其应对下游任务的能力。同时,我们开发了三个不同类别的共九个模型变体,以满足数字人文和语言学研究人员的不同文本处理偏好。