- 海德堡 - 波士顿 @ SIGTYP 2024 共享任务:使用字符感知分层变形器增强低资源语言分析
历史语言中的 NLP 社区所面临的主要挑战之一是其封闭语料库中有限的资源。本研究描述了我们参与 SIGTYP 2024 共享任务约束子任务的提交,重点关注 13 种历史语言的词性标注、形态标注和词形还原。我们采用了 Sun 等人(2023 - 基于深度学习方法的博多语词性标注器
本研究涉及发展 Bodo 语言模型和基于深度学习的 Bodo 词性标注模型,探讨在低资源语言中开展语言处理系统的研究。
- 使用数据增强改进临床语音的自发性词性标注
该论文解决了改善语音转录文本的 POS 标注的问题。作者使用了数据增强技术来训练在领域外树库上的句法分析器,并在句法标注上测试了在不同类型的神经退行性疾病患者的临床语音中表现良好的效果。
- 针对网络安全法律语言的语法标注
该论文探讨了针对网络安全法律文件的词性标注方法,使用 SpaCy 和 ClausIE 等工具对欧盟法律文书进行分析并得出结论,提出了一种自动化方法,并得出了第一个针对 NIS 2 指令的结构化解释。
- AsPOS:使用深度学习方法的阿萨姆语词性标注器
本研究基于深度学习技术,开发了一种 Assamese 词性标注工具,通过两个阶段的模型训练,达到了 86.52% 的 F1 分数,为基于深度学习的 Assamese 词性标注的进一步研究提供了基线。
- 构建奥迪亚浅层解析器
本文旨在为 shallow parsing 构建 Odia 语言的 pos 标记和 chunk 标记标注语料库,并开发出针对该语言的基线系统。
- 2020 云杉杯:低资源语言词性标注任务概述
本研究探讨了不同词性(POS)标注方法的评估框架,并在印度尼西亚语和老挝语的数据集上使用基于特征的和神经网络的方法进行 POS 标注,结果表明神经序列标记模型显着优于经典基于特征的方法和基于规则的方法,其中在印度尼西亚语数据集上的最佳表现达 - ACL通过注入字符级噪声改善密切相关语言之间的零样本跨语言转移
通过在高资源语言中增加字符级噪音,我们提出了一种简单而有效的策略,以增强密切相关的语言之间的跨语言转移,从而提高 POS 标记和主题识别等任务的零样本转移能力。
- Subword 池化有所不同
探讨分词和子词池化对两个大规模多语言模型在词汇计量、词性标注和命名实体识别等三个任务中的影响,并提出使用小型 LSTM 模型对子词进行池化处理的最佳方案。
- EMNLPFAME: 基于特征的对抗元嵌入,用于鲁棒的输入表示
通过 adverarial training 方法,结合反映单词特征的注意力机制,成功实现了不同类型和尺寸的词向量的融合,表现优异,成为 27 种语言的词性标注、各种 NER 任务和问题分类等多项任务的最新 state of the art - 标点复原的对抗迁移学习
本研究旨在解决文本标点还原中词向量只包含从左到右上下文信息和外部词性标注器的不足。为此,引入敌对式迁移学习和多任务联合学习,将预训练双向编码器表示模型用于初始化标点模型,利用多个任务的学习提高模型效果,在 IWSLT2011 数据集上进行实 - 在 54 种语言中评估上下文嵌入在词性标注、词形还原和依存分析中的效果
本文对三种最近提出的上下文嵌入方法进行了广泛评估,并在通用依赖关系 2.3 的 89 个语料库中的 54 种语言中,以词性标注,词形还原和依赖关系分析三个任务中使用 BERT,Flair 和 ELMo 作为预先训练的嵌入输入。
- PKUSEG:多领域中文分词工具包
本文提出了一个新的工具包 ——PKUSEG,用于多领域中文分词。PKUSEG 通过提供不同领域的独立模型来达到多领域分词的目的,还提出了一个领域自适应模型来为缺乏标签数据的领域提供分词模型。该工具包具有高性能,支持词性标注和模型训练,可适应 - 从零开始的通用依存句法分析
该论文介绍了 Stanford 的 CoNLL 2018 UD 共享任务中的系统,这是一个完整的神经管道系统,可以将原始文本作为输入,并执行共享任务所需的所有任务,从分词和句子分割到词性标注和依赖关系解析,并通过广泛的消融研究展示了不同的模 - 越南语词汇分割、词性标注和依存句法分析的神经联合模型
本文提出了一个新的多任务学习模型,用于联合越南语词语分割、词性标注和依存句法分析,并在越南基准数据集上进行了实验,结果表明本模型具有最先进或竞争性的表现。
- 迈向标准化和更准确的印度尼西亚词性标注
本文探讨了印度尼西亚文本的词性标注。我们使用基于规则、CRF 和神经网络的模型进行试验,并在 IDN Tagged Corpus 上对其进行评估,最终用递归神经网络取得了 97.47 的最优性能。同时,我们还公开了我们使用的数据集以供未来的 - ACL通过对抗训练实现稳健的多语言词性标注
本文探讨基于对抗性训练的模型对自然语言处理任务的影响,发现对抗性训练不仅可以提高深度学习模型的鲁棒性,还能对词性标注和依存句法分析等任务有积极的影响。
- 从分词到词性标注 - 越南语
本文比较了越南语标注未分割文本的两种策略:管道策略和联合策略,并且在特征模型和神经网络模型上进行了比较。经过实验证明,使用管道策略和特征模型时,能更好地识别未分割文本中的词性标记。
- ACL阿拉伯语言相关分词的挑战:机器翻译和词性标注的应用
本研究探讨用数据驱动的子字单元、字符和卷积神经网络(CNN)学习的单词嵌入来替代传统的形态学分割,实现阿拉伯语自然语言处理(NLP)中的词分割。实验表明,这些方法在机器翻译和词性标注任务中,可以达到接近或超过最先进性能。同时,研究揭示神经机 - 联合词性标注和基于图结构的依存句法分析的新型神经网络模型
本研究提出了一种新型的神经网络模型,该模型可以同时学习 POS 标记和基于图的依赖解析。该模型使用双向 LSTM 来学习两个任务共享的特征表示,从而解决了特征工程问题。该模型在 19 种语言的通用依赖关系项目上进行了广泛的实验,结果表明我们