ACLMay, 2023

说文解字:重新思考中文语言预训练的词典和字形

TL;DRCDBERT 是一种改进了语义理解的学习范例,它结合了语汇知识和汉字结构。该方法使用 Shuowen 和 Jiezi 两个核心模块,前者用于从汉字字典中获取最合适的意义,后者用于通过结构理解增强汉字的字形表示。通过在现代汉语理解基准 CLUE 和古代汉语基准 CCLUE 上评估,我们的方法表现出对以前的汉语 PLM 的一致提高。此外,我们在收集的古代汉字字典上提出了一种新的多义词鉴别任务 PolyMRC,并在古代汉语理解的少量数据情况下获得了显著的提升。