ÚFAL LatinPipe 在 EvaLatin 2024 中的拉丁语形态句法分析
我们在 SIGMORPHON2019 共享任务中对 UDPip2.0 进行修改,使用预训练的上下文化嵌入 (BERT) 作为网络的附加输入,使用单独的形态特征作为正则化,并合并了同一语言的选定语料库,在词形还原任务中,我们的系统的准确性达到了 95.78,超过所有提交的系统,且在词态分析方面取得了 93.19 的准确度,是一个非常有前途的研究。
Aug, 2019
本文介绍了 LatinCy,一组通用的、训练有素的拉丁语 “核心” 工作管道,适用于自然语言处理框架 spaCy。该模型是基于大量的可用拉丁语数据训练的,包括五个拉丁通用依赖树库,可与彼此兼容的预处理。结果是,对于许多自然语言处理任务,我们得到了一组具有良好性能的拉丁语通用模型。本文描述了模型训练及其训练数据和参数化,并介绍了拥有 spaCy 模型对于拉丁语研究人员的优势。
May, 2023
我们提供的 CorPipe 是 2023 年 CRAC 共享任务多语言共指解析比赛的获胜系统,它是我们之前多语言共指流水线的改进版本,并以 4.5 个百分点的巨大优势超过其他参赛者。CorPipe 首先通过检测提及实体,然后通过在提取的范围上采用先行最大化方法进行共指链接。这两个任务是在所有可用语料库上使用共享的预训练语言模型进行联合训练的。我们的主要改进包括使用大于 512 个子词的输入和更改提及解码以支持组合解。源代码可以在此 https URL 中找到。
Nov, 2023
该研究是关于情绪极性检测在历史拉丁文本中的应用,结合启发式标签和 GPT4 生成标签的监督学习方法,使用参数高效微调和适配器框架,通过 LLM 生成的标签在情绪极性检测任务中取得了第一名的优异成绩,结果表明 LLM 标注对拉丁文本具有良好的潜力。
May, 2024
我们使用联合微调的方法,结合先进的预训练模型,成功地解决了 CRAC 2022 共享任务中的多语言指代消解问题,找到了一种足够大的编码器,提高了各数据集的表现,并提供了源代码。
Sep, 2022
该论文介绍了 Stanford 的 CoNLL 2018 UD 共享任务中的系统,这是一个完整的神经管道系统,可以将原始文本作为输入,并执行共享任务所需的所有任务,从分词和句子分割到词性标注和依赖关系解析,并通过广泛的消融研究展示了不同的模型组件的有效性。
Jan, 2019
该论文介绍了 ADAPT 系统参加 2020 年 IWPT 共享任务的解析增强通用依存关系的方法,采用 UDPipe 和 UDPipe-future 构建管道方法,使用语义依存图解析器或一系列启发式规则来增强依存图,并在语言平均值方面达到了 79.53 分,可以成功实现增强依赖句法分析任务。
Sep, 2020
本文介绍了一种基于深度学习的语义依存图形式分析系统,该系统采用效率高且几乎拓扑结构简单的推理方法,通过组合双向 - LSTM 和多层感知机,能够在不使用手工特征或语法的情况下显著提高语义依存分析的技术水平。作者还对多任务学习策略进行了研究,并获得了新的技术成果。
Apr, 2017
介绍了 Uppsala 系统,它是一个由三个部分构成的流水线,可以用于 CoNLL 2018 共享任务的普遍依赖语法分析。通过使用多个树库对同一语言或密切相关语言训练模型,我们极大地减少了模型数量,最终在公开测试上获得了 LAS 和 MLAS 指标的第 7 位排名以及词分割、普遍 POS 标签和形态特征的最高分。
Sep, 2018
本文提出了一种新的神经网络模型,用于联合部分词性标注和依赖解析,将 BiLSTM 标记组件结合到 BIST 依赖解析器中,可对英语 Penn 语料库进行联合学习,模型在 LUS 和 UAS 评分上分别达到 94.51% 和 92.87%,并在多个评测数据集上都取得了最佳表现。
Jul, 2018