迈向标准化和更准确的印度尼西亚词性标注
本文使用深度学习中的长短时记忆模型和条件随机场模型,通过使用 8400 句训练语料和 97 句测试语料,研究了词性嵌入和模型结构对印尼命名实体识别的影响。结果表明,使用词性嵌入作为额外输入有助于提高识别性能,但 Softmax 和 CRF 两种模型结构都存在命名实体分类的弱点。
Sep, 2020
本研究探讨了不同词性(POS)标注方法的评估框架,并在印度尼西亚语和老挝语的数据集上使用基于特征的和神经网络的方法进行 POS 标注,结果表明神经序列标记模型显着优于经典基于特征的方法和基于规则的方法,其中在印度尼西亚语数据集上的最佳表现达到了 95.82%,在老挝语数据集上为 93.03%。
Apr, 2022
本文介绍了基于条件随机场和深度学习的方法开发 Odia 词性标注器。通过实验,发现使用带字符序列特征和预训练词向量的 bi-LSTM 模型可以达到显著的最新成果。
Jul, 2022
本研究中,我们使用了 ClearNLP 和 Stanford POS Tagger 这两个广泛使用的工具包,并开发了两个新的越南语 POS 标记器,然后将它们与三个众所周知的越南标记器 JVnTagger、vnTagger 和 RDRPOSTagger 进行比较。通过系统比较,我们发现,利用新特征集构建的越南语标记器可以在标记准确性方面胜过所有其他现有的越南标记器。此外,研究结果还表明,基于转换的标记器 RDRPOSTagger 的运行速度明显快于任何其他统计标记器。
Jun, 2022
提高阿姆哈拉语的词性标注性能,本文介绍了使用形态学知识、扩展已有标注数据、特征提取、参数调整和标注算法等方法,对比以往工作,明显的提高了词性标注性能。
Jan, 2020
本研究提出并比较了基于神经网络的 Net-Tagger 与基于 HMM 以及三元标注的标注器之间的表现,证明 Net-Tagger 与三元标注的表现相当且优于 HMM-tagger。
Oct, 1994
本文提出了一个新的多任务学习模型,用于联合越南语词语分割、词性标注和依存句法分析,并在越南基准数据集上进行了实验,结果表明本模型具有最先进或竞争性的表现。
Dec, 2018
本研究基于深度学习技术,开发了一种 Assamese 词性标注工具,通过两个阶段的模型训练,达到了 86.52% 的 F1 分数,为基于深度学习的 Assamese 词性标注的进一步研究提供了基线。
Dec, 2022
本文提出了一种新的神经网络模型,用于联合部分词性标注和依赖解析,将 BiLSTM 标记组件结合到 BIST 依赖解析器中,可对英语 Penn 语料库进行联合学习,模型在 LUS 和 UAS 评分上分别达到 94.51% 和 92.87%,并在多个评测数据集上都取得了最佳表现。
Jul, 2018
研究社交媒体上社会语言的使用及其对自然语言处理的影响,参考三种不同语言对的社交媒体数据,通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。
Feb, 2017