HuSpaCy 中的混合还原
本篇论文介绍了 HuSpaCy,这是一个针对匈牙利语的工业级自然语言处理工具包,包括词干提取、形态句法分析、实体识别和词嵌入等组件,并以 spaCy 的 NLP 组件为基础构建,能够高效而准确地完成文本处理任务。
Jan, 2022
本文介绍了一套工业级的匈牙利文处理模型,通过平衡资源效率和准确性,实现了接近最新技术水平的性能。这些模型在 spaCy 框架中实现,并且通过对其架构进行了多项改进,扩展了 HuSpaCy 工具包。与现有的匈牙利文自然语言处理工具相比,我们的所有流程均具备基本的文本处理步骤,包括分词、句子边界检测、词性标注、形态特征标注、词形还原、依存句法分析和命名实体识别,并且高度准确且吞吐量大。我们全面评估了所提出的改进,将这些流程与最新技术的工具进行了比较,并展示了新模型在所有文本预处理步骤中具有竞争力的性能。所有实验都可以重现,并且这些流程可在许可证下免费使用。
Aug, 2023
本文介绍了一个简单的神经模型,用于词形还原和形态标记,可以达到 20 种语言的最新结果,并表明联合形态标记和词形还原特别有助于低资源词形还原和形态复杂性较高的语言。
Apr, 2019
通过将词汇学特征添加到 LSTM 和 BERT 模型中,我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现,结果显示,根据所添加的特征的质量和任务的不同,这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好,而不太适用于 CF 任务;对于 BERT,只有在高质量特征时才会对 DP 表现有所改善,而且相对于强大的多语言 BERT 模型,语言特异性 BERT 变体的改善程度较小。
Nov, 2020
在低资源环境中,提出了一种用于模拟复杂形态的框架解决方案,该方案采用了双层 Transformer 架构来编码输入端的形态学信息。同时通过多标签多任务训练和基于 beam search 的解码器,提高了机器翻译性能,并使用通用形式的注意力增强方案来整合预训练语言模型和源语言和目标语言之间的词序关系建模。通过评估多种数据增强技术,提高了在低资源环境中的翻译性能,最终在基纳卢旺达语 - 英语翻译任务中取得了有竞争力的性能,希望我们的结果能够鼓励更多在低资源的神经机器翻译中使用明确的形态学信息以及所提出的模型和数据增强方法。
Apr, 2024
本文提出了使用字符和形态级别单词分解学习单词表示的若干结构,并将这些表示法纳入一种新颖的机器翻译模型中,通过一个硬注意力机制联合学习单词对齐和翻译,从而提高 morphologically rich languages 翻译成英语的机器翻译的性能,相对强基线模型提高了 1 到 1.5 个 BLEU 分数。
Jun, 2016
本文探讨了适用于复杂形态和大标注集语言的神经字符基础形态标注,结合双向 LSTMs 建模跨单词上下文,发现网络架构和预训练词嵌入向量在‘简单’模型配置的情况下对准确度产生重要影响,通过增加深度优化神经网络可显著提高标注器准确度,最终德语和捷克语的最佳形态标注器性能显著优于文献中最好结果。
Jun, 2016
提出了一种适用于低资源语言的模型来训练形态标记器,该模型使用 Wesabie 模型进行打标, 通过在语料库中引入 POS 词性标注的元信息,将标记信息从富资源语言映射到贫资源语言,实现了跨语言知识的迁移,可以提高句法分析的效果。
Jun, 2016
本文提出了一种通过分层潜在变量模拟词态变化过程的方法,通过组合两个潜在表示(一个连续的表示和一组(近似)离散特征),逐个字符生成单词,从而使神经机器翻译在三种形态丰富的语言中的精度和资源利用率得到了提高。
Oct, 2019
通过使用字符级和词级嵌入,带有双向 RNN 的 LemmaTag 特征较少的神经网络架构,共同为句子生成词性标记和词素。该模型在捷克语,德语和阿拉伯语的词性标记和词素化方面的准确性超过了最先进的水平。
Aug, 2018