基于深度学习方法的博多语词性标注器
本文介绍了基于条件随机场和深度学习的方法开发 Odia 词性标注器。通过实验,发现使用带字符序列特征和预训练词向量的 bi-LSTM 模型可以达到显著的最新成果。
Jul, 2022
本研究基于深度学习技术,开发了一种 Assamese 词性标注工具,通过两个阶段的模型训练,达到了 86.52% 的 F1 分数,为基于深度学习的 Assamese 词性标注的进一步研究提供了基线。
Dec, 2022
本文研究了在社交媒体领域中波斯尼亚语、塔吉克语、哈萨克语和蒙古语的仇恨言论检测的详细结果和关键发现。通过使用 BERT 模型,特别是 XML-Roberta-lagre,在大多数情况下,我们的成果表明其性能优于单语模型。我们的团队在任务 4 - 塔吉克语中获得第 3 名,在波斯尼亚语中获得第 5 名。
Dec, 2023
提出了一种适用于低资源语言的模型来训练形态标记器,该模型使用 Wesabie 模型进行打标, 通过在语料库中引入 POS 词性标注的元信息,将标记信息从富资源语言映射到贫资源语言,实现了跨语言知识的迁移,可以提高句法分析的效果。
Jun, 2016
提高阿姆哈拉语的词性标注性能,本文介绍了使用形态学知识、扩展已有标注数据、特征提取、参数调整和标注算法等方法,对比以往工作,明显的提高了词性标注性能。
Jan, 2020
零资源环境中的词性标注可以是一种有效的方法,当没有标记的训练数据可用时,特别适用于资源匮乏的语言。本文研究了使用预训练的多语言大型语言模型或在零资源目标语言中将源语言标签映射并训练序列标注模型两种主要技术进行词性标注。我们通过现成的对齐模块探索了后一种方法,并训练了一个隐马尔可夫模型来预测词性标签。我们在以英语为源语言,法语、德语和西班牙语为目标语言的词性标注中评估了转移学习设置。我们的结论是,零资源语言中的映射对于预测词性标签是有益的。
Jan, 2024
本研究采用词、字符和 Unicode 字节嵌入比较 bi-LSTM 和传统的 POS 标注器,在 22 种语言中取得了最优性能,并表明 bi-LSTM 对于训练数据大小和标签污染的敏感度被过高估计。
Apr, 2016
使用双向 LSTM 网络与相似度度量的对比损失函数,通过在共同空间中学习资源贫乏和资源丰富句子的表示方法,实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言(如印地语和泰卢固语)和资源丰富语言(如英语和西班牙语)进行有效分类的目标。
Jun, 2018
本文提出了一种针对印度东部的形态丰富的低资源语言 (Assamese) 的 BERT 模型,名为 AxomiyaBERTa,该模型只在掩码语言模型 (MLM) 任务上进行训练,不包含典型的下一句预测 (NSP) 目标,结果显示在类似 Assamese 这样的低资源语言的资源稀缺环境中,仅使用 MLM 就可以成功地利用一系列任务,同时 AxomiyaBERTa 在诸如命名实体识别等基于 token 的任务上实现了 SOTA,在 Cloze-style QA 和 Wiki Title Prediction 等基于更长上下文的任务上也表现良好,其背后包含一个新型的嵌入扩散器和音韵信号。此外,本文还表明 AxomiyaBERTa 可以利用音韵信号处理更具挑战性的任务,例如在 ECB+ 语料库的翻译版本中进行新的交叉文件共指任务,我们在 LRL 上呈现了新的 SOTA 结果。
May, 2023
研究社交媒体上社会语言的使用及其对自然语言处理的影响,参考三种不同语言对的社交媒体数据,通过条件随机场分类器开发出一个基于富有语言特征的词性标注系统。
Feb, 2017