面向基于文本的系统的伊博文本文档分析与表示

Sep, 2020

面向基于文本的系统的伊博文本文档分析与表示

Analysis and representation of Igbo text document for a text-based system

Ifeanyi-Reuben Nkechi J., Ugwu Chidiebere, Adegbola Tunde

TL;DR本文介绍了 Igbo 语言文本的特殊形式 —— 复合词的分析，并通过单词 N-Gram 模型描述其表示形式，以便在任何基于文本的应用程序中得到准确的呈现和更好的效果，特别是包括情境与单词顺序。

Abstract

The advancement in information technology (IT) has assisted in inculcating the three Nigeria major languages in text-based application such as text mining, information retrieval and natural language processing. The interest of this paper is the →

information technology igbo language compounding n-gram model text-based system

发现论文，激发创造

移动键盘输入中的复合处理

本文提出了一个框架来提高手机用户在形态丰富的语言中的打字体验，该方法使用自动选择的子词单元来对德语等复杂的语言进行建模，并通过绑定类型注释来确定何时将子词单元绑定成单词，此方法在多种复杂语言中表现出约 20% 的错误率降低，是基本方法改进的两倍以上。

Jan, 2022

词表示和语言建模的组成形态学

本论文提出了一种可扩展的方法，将组成形态学表示集成到基于向量的概率语言模型中，并在语言模型因词汇而被适当地实现以实现内部和外部评估，在一些语言上进行实验研究并展示结果，表明我们的模型学习了形态学表示，在词相似性任务上表现出色且使困惑度大幅降低，用于转化大词汇量的形态丰富语言时，我们的模型相对于使用回退 N-gram 模型的基线系统，可以获得高达 1.2 的蓝点改进。

May, 2014

一个面向 Igbo 语的通用情感词汇表的开发

本篇研究的目标是创建一个通用的情感词典（lexicon）来判断以 Igbo 语言写成的文件的情感，而无需将其翻译成英语。该研究使用 Liu 自动翻译的词典和手动添加的 Igbo 本地词汇构建了一个名为 IgboSentilex 的情感词典，并在 BBC Igbo 新闻频道进行了性能测试。结果表明，与其他通用情感词典相比，平均极性一致性高达 95.75％。

Apr, 2020

英语名词复合词表示方法的系统比较

比较了名词复合物的不同表示方法，发现复合函数往往比分布式函数更有效，并且不同的函数在不同情况下表现不同，建议采用联合训练以得到更好的表示。

Jun, 2019

OkwuGbé: Fon 和 Igbo 的端到端语音识别

该研究建立了一个端到端、基于深度神经网络的语音识别模型，用于非洲的低资源语言 Fon 和 Igbo，该研究为 Fon 和 Igbo 提供了有价值的洞见，同时为非洲的其他低资源语言的语音识别模型的创建提供指导。

Mar, 2021

IgboAPI 数据集：通过多方言丰富增强 Igbo 语言技术

为了发展 Igbo 语言的语言技术以促进沟通、学习和保护，本研究通过构建多方言的 Igbo-API 数据集，并应用于 Igbo 语义词典和机器翻译的研究中，有效地解决了 Igbo 语言技术面临的方言差异问题。

May, 2024

伊博语 - 英语机器翻译：评估基准

该研究论文介绍了关于自然语言处理在非洲语言的应用的研究进展，指出非洲语言的自然语言处理技术和工具存在落后的现象。在此背景下，作者提出了建立一个 Igbo 语言的机器翻译基准数据集的思路，从而提升非洲语言的自然语言技术水平。

Apr, 2020

利用子词信息学习词表示的系统研究

本研究通过对五种语言的三个任务进行大量实验研究，发现在利用子词级别信息进行词表示学习时，不同语言和任务下，分词和组成函数等关键组件的最优配置各异。同时，我们还发现，一些无监督分词方法，如 BPE 和 Morfessor 等，有时能够和甚至超过一些基于监督分词方法的配置。

Apr, 2019

使用子词信息丰富单词向量

本文提出一种基于 skip-gram 模型的新方法，其中每个单词被表示为一组字符 n-grams 的加和。该方法快速、可在大型语料库上快速训练模型，同时可以计算未出现在训练数据中的单词的表示。我们在九种不同的语言上评估了我们的单词表示，通过与最近提出的形态单词表示进行比较，我们发现我们的向量在这些任务上达到了最先进的性能。

Jul, 2016

形态丰富语言的概率建模

本论文研究了如何在语言的概率模型中考虑单词的子结构。从单词的形态学基本概念出发，提出了三种不同类型的语言模型。在 n 元语言模型中，提出了一种基于复合词分解的 Bayesian 模型，还开发了一种新的分布式语言模型。在这两种情况下，论文表明考虑单词的子结构可以提高模型性能和机器翻译的质量。此外，我们还探讨了一些可以自动学习语言词根及语言特征的模型。这些方法应用在闪族语言上表现出更好的结果。

Aug, 2015