构建奥迪亚浅层解析器
该研究解决了印地语 - 英语混合社交媒体文本的浅层分析问题。通过数据注释和开发语言识别器,规范器,词性标注器和浅层解析器,我们开发了一种 CSMT 浅层解析管道,并使其可用于研究社区,以便更好地分析印地语英语 CSMT。
Apr, 2016
本文介绍了基于条件随机场和深度学习的方法开发 Odia 词性标注器。通过实验,发现使用带字符序列特征和预训练词向量的 bi-LSTM 模型可以达到显著的最新成果。
Jul, 2022
本文提供第一个公开的 Odia 语言树库,并使用机器学习技术对其进行了形态分析。该树库将丰富 Odia 语言资源,有助于建立跨语言学习和分类研究的语言技术工具。本文还构建了一个初步的 Odia 语言分析器,并对 Odia 的 UD 树库进行了简要的语言分析。
May, 2022
我们研究了浅层句法意识表示对 NLP 任务的作用,提出了两种方法,一是增强 ELMo 架构,使得上下文嵌入利用浅句法上下文,二是在下游任务数据上自动获得的浅句法特征。然而,两种方法相对于仅使用 ELMo 作为基准的情况并未显著提升性能。这些发现表明 ELMo 风格的预训练发现了使浅层句法意识多余的表示。
Aug, 2019
通过依存句法分析技术,我们在低资源语言乌尔都语的解析中取得了重要进展,并使用复杂的特征模型和 Nivreeager 算法,获得了一定准确率并评估了解析器的错误。
Jun, 2024
本研究填补了低资源乌兹别克语领域机器学习模型样本不足的问题,开发了新的词性标注和句法标注标准,并提出了一个基于网络的工具来帮助标注。同时,我们共享了创建乌兹别克语语料库的第一阶段的经验结果。
Oct, 2022
提高阿姆哈拉语的词性标注性能,本文介绍了使用形态学知识、扩展已有标注数据、特征提取、参数调整和标注算法等方法,对比以往工作,明显的提高了词性标注性能。
Jan, 2020
本篇论文介绍了一种基于语言模型的 seq2seq 体系结构,重点介绍了少样本语义解析,并基于非注释数据引入联合训练、有约束的解码、自训练和重新表述这四种技术进行了自动方法来提高语义解析性能。结果表明,该方法在夜间数据集上提供了新的最优结果,并在新的语义解析数据集上提供了非常令人信服的少样本结果。
Apr, 2022