ACLOct, 2022

HUE: 用于理解韩国古代汉字文献的预训练模型和数据集

TL;DR本篇研究旨在建立、评估韩字理解的语言模型,为此发布了包含了年代归属、主题分类、命名实体识别和概要检索任务的 Hanja Understanding Evaluation 数据集。同时,还在朝鲜王朝的官方纪事 Annals 和 Royal Secretariats 的两个重要文献语料库上训练了 BERT 模型,并将它与几个基线模型进行了比较,发现训练在这两个文献上的模型具有显著改进。此外,还在历史学研究中尚未被广泛研究的 DRRI 数据集上进行了零样本实验。