May, 2024

海德堡 - 波士顿 @ SIGTYP 2024 共享任务:使用字符感知分层变形器增强低资源语言分析

TL;DR历史语言中的 NLP 社区所面临的主要挑战之一是其封闭语料库中有限的资源。本研究描述了我们参与 SIGTYP 2024 共享任务约束子任务的提交,重点关注 13 种历史语言的词性标注、形态标注和词形还原。我们采用了 Sun 等人(2023 年)的分层分词方法,并结合 DeBERTa-V3 架构的优势,使我们的模型能够有效地从训练数据的每个字符中学习。我们还展示了字符级 T5 模型在词形还原任务中的有效性。我们的模型通过有限的数据从头开始预训练,并在约束子任务中获得了第一名,几乎达到了无约束任务的冠军水平。我们的代码可在此 https URL 找到。