TartuNLP @ SIGTYP 2024 共享任务:为古代和历史语言适应 XLM-RoBERTa
历史语言中的 NLP 社区所面临的主要挑战之一是其封闭语料库中有限的资源。本研究描述了我们参与 SIGTYP 2024 共享任务约束子任务的提交,重点关注 13 种历史语言的词性标注、形态标注和词形还原。我们采用了 Sun 等人(2023 年)的分层分词方法,并结合 DeBERTa-V3 架构的优势,使我们的模型能够有效地从训练数据的每个字符中学习。我们还展示了字符级 T5 模型在词形还原任务中的有效性。我们的模型通过有限的数据从头开始预训练,并在约束子任务中获得了第一名,几乎达到了无约束任务的冠军水平。我们的代码可在此 https URL 找到。
May, 2024
本文提出了在 SemEval-2024 Task 1 中开发的系统:用于非洲和亚洲语言的语义文本相关性。该共享任务旨在测量句子对之间的语义文本相关性,重点关注一系列少数语言。我们在这项工作中提出了使用机器翻译进行数据增强来解决有限训练数据的低资源挑战。此外,我们对未标记任务数据进行任务自适应预训练,以弥合预训练和任务适应之间的差距。对于模型训练,我们研究了完全微调和基于适配器的微调,并采用适配器框架实现了有效的零次跨语言迁移。在共享任务中,我们取得了具有竞争力的结果:我们的系统在子任务 A(监督学习)和子任务 C(跨语言迁移)中排名最高。
Apr, 2024
本文提出了四种古希腊语言模型,包括单语和多语版本,使用 RoBERTa 和 T5 作为模型类型,基于模型对形态和句法任务进行评估,探讨模型类型对古典语言模型设计的影响。实验结果表明本文设计的模型显著提高了古希腊语言任务的性能,并为未来的研究提供了有用的信息。
May, 2023
该研究是关于情绪极性检测在历史拉丁文本中的应用,结合启发式标签和 GPT4 生成标签的监督学习方法,使用参数高效微调和适配器框架,通过 LLM 生成的标签在情绪极性检测任务中取得了第一名的优异成绩,结果表明 LLM 标注对拉丁文本具有良好的潜力。
May, 2024
通过使用多语言知识蒸馏方法训练 BERT 模型,本研究为古希腊文本生成句子嵌入,借鉴了高资源语言的模型性质,同时使用了相对较少的翻译句子数据。通过创建一个平行语料库,将古希腊文档与英文译文进行对齐,并使用这个数据集训练模型。研究还通过翻译搜索、语义相似性和语义检索任务以及翻译偏差调查的评估方法对模型进行了测试。
Aug, 2023
本文提出了在 SemEval 2023 任务 3 的子任务 3 中检测说服技巧的最佳解决方案,主要是通过细调预训练的基于 Transformer 的语言模型来处理多语言输入数据和多个预测标签,该方案使用大型的跨语言模型(XLM-RoBERTa 大型模型)在所有输入数据上联合训练,而且针对已知语言和未知语言分别设置合理的置信度阈值,最终在 9 种语言中的 6 种语言上(包括两个未知语言)表现最优秀并取得了高度竞争的结果。
Apr, 2023
该研究提出了一种名为 X-METRA-ADA 的交叉语言 MEta-TRAnsfer 学习 ADAptation 方法,其采用元学习技术来增强自然语言理解(NLU)领域中的跨语言转化,并通过两个跨语言 NLU 任务的大量实验证明了该方法性能优于朴素微调方法,该方法能够利用有限数据进行更快的适应。
Apr, 2021
通过适配器微调,我们研究了开展统一模型以有效处理多个口语处理任务的潜力,并在 SUPERB 基准测试中实验证明,适配器微调使得单一的编码 - 解码模型在五个目标任务上的性能提高了 18.4%,同时在参数更新方面保持高效。
Jun, 2024
本文提出 MAD-X 适配器框架,通过学习模块化的语言和任务表示来实现对任意任务和语言的高移植性和参数有效的转移。在命名实体识别和因果常识推理中定型后,MAD-X 在跨类型多样的语言跨语言转移方面优于最新技术水平,并在问答方面取得具有竞争力的结果。
Apr, 2020
研究使用多语言集成模型,针对 SemEval-2023 任务 3:在在线新闻中检测类别、框架和说服技巧。在三个子任务中,使用 RoBERTa 和 mBERT 等方法,分别在不同语言中获得前几名的结果。
Mar, 2023