使用统计方法开发马拉地语词性标注器
研究社交媒体上社会语言的使用及其对自然语言处理的影响,参考三种不同语言对的社交媒体数据,通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。
Feb, 2017
提高阿姆哈拉语的词性标注性能,本文介绍了使用形态学知识、扩展已有标注数据、特征提取、参数调整和标注算法等方法,对比以往工作,明显的提高了词性标注性能。
Jan, 2020
本文介绍了基于条件随机场和深度学习的方法开发 Odia 词性标注器。通过实验,发现使用带字符序列特征和预训练词向量的 bi-LSTM 模型可以达到显著的最新成果。
Jul, 2022
本研究基于深度学习技术,开发了一种 Assamese 词性标注工具,通过两个阶段的模型训练,达到了 86.52% 的 F1 分数,为基于深度学习的 Assamese 词性标注的进一步研究提供了基线。
Dec, 2022
本研究中,我们使用了 ClearNLP 和 Stanford POS Tagger 这两个广泛使用的工具包,并开发了两个新的越南语 POS 标记器,然后将它们与三个众所周知的越南标记器 JVnTagger、vnTagger 和 RDRPOSTagger 进行比较。通过系统比较,我们发现,利用新特征集构建的越南语标记器可以在标记准确性方面胜过所有其他现有的越南标记器。此外,研究结果还表明,基于转换的标记器 RDRPOSTagger 的运行速度明显快于任何其他统计标记器。
Jun, 2022
本文描述我们在 Jadavpur 大学参加 ICON 2015 任务 - 对混合码印度社交媒体文本进行 POS 标注的实验,并开发了一种基于三元隐马尔可夫模型的工具,该模型利用字典以及其他一些单词级别的特征来增强已知和未知代币的观察概率。 在受控模式下,我们的系统平均整体准确度(在所有三种语言对上取平均值)为 75.60%,这非常接近排名高于我们系统的其他两个系统(IIITH 为 76.79%,AMRITA_CEN 为 75.79%)。 在不受约束的模式下,我们的系统获得了平均整体准确度为 70.65%,这也接近获得最高平均整体准确度的系统(AMRITA_CEN 为 72.85%)。
Jan, 2016
本论文提出了将已有的波斯语语料库转用于库尔德语的词性标注。可用于库尔德语的标注语料库现阶段非常缺乏,本方法可以利用相关资源可以帮助开发自动库尔德语标注以及 Kurdish dialect 的词性标注词典。
Jan, 2022
这篇论文介绍了一个面向口语波斯文的新语料库 CPPOS,通过使用该语料库进行训练,利用深度学习模型在波斯文的 POS 标注任务中取得比现有数据集和工具更好的性能,相较之前的数据集的改进达到了 14%。
Oct, 2023
本研究提出并比较了基于神经网络的 Net-Tagger 与基于 HMM 以及三元标注的标注器之间的表现,证明 Net-Tagger 与三元标注的表现相当且优于 HMM-tagger。
Oct, 1994
本文介绍了一种快速适应新域的 POS 标注器的方法,该方法利用大量文本中收集的后缀信息和字形信息以增加词汇覆盖率,在生物领域的实验中表现出了与该领域中特别训练的 POS 标注器相当的结果。
Oct, 2014