基于语料库的对照集用于检测低资源英语种类中的形态句法特征
这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查,发现手工注释的语言资源稀缺,大多数仅涵盖形态和句法,但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。
Apr, 2023
本文介绍了方言特征检测的任务,并提出了两种基于预训练转换器的多任务学习方法。评估结果表明,模型能够以很高的准确性识别许多特征,并且几个最小配对的样本可与成千上万个标注样本产生同样的效果。此外,方言特征检测具有方言密度和方言分类器的下游适用性。
Oct, 2020
为了比较人类语言处理模型,许多研究使用富自然语言材料的语料库来预测参与者反应,但这些研究所使用的许多语料库是基于自然文本的,因此缺少许多频率低的句法结构,而这些句法结构是区分处理理论所必需的。本文提出一种新的语料库,包含许多低频句法结构且易于被母语人士理解,该语料库已标注手动修正的语法树,并包括了自定速度阅读时间的数据。
Aug, 2017
这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库,在几乎零的资源条件下构建了该语料库,并利用其中的数据完成了口语术语发现。该论文讨论了如何收集,清理和处理数据,并将该数据集提供给社区进行可重现的计算语言文献研究和评估。
Oct, 2017
提出了一种适用于低资源语言的模型来训练形态标记器,该模型使用 Wesabie 模型进行打标, 通过在语料库中引入 POS 词性标注的元信息,将标记信息从富资源语言映射到贫资源语言,实现了跨语言知识的迁移,可以提高句法分析的效果。
Jun, 2016
本研究介绍了一个自动框架,旨在通过自动发现和可视化语法的不同方面来促进语言教学,其中从自然语料库中提取描述单词排序、一致性、语法标记或词形成及词汇学习的描述,并显示例证。作者在印度语言 Kannada 和 Marathi 上应用此方法,以评估其实用性,并邀请北美的语言教育家对这些语言进行手动评估。教师们认为这些材料有趣,可以用作自己的课程准备或学习者评估的参考资料。
Jun, 2022
为了解决资源匮乏语言中的迁移学习问题,本研究提出了一种基于形态学知识的跨语言弱监督深度同源词检测框架,通过训练编码器获得语言的形态学知识,并将此知识转移至密切相关的语言以进行无监督和弱监督的同源词检测。在不同的语系上进行了实验,得到了显著的改进和超越最先进的监督和无监督方法的结果。该模型对于任何语系的各种语言都具有扩展性,因为它克服了对同源词对进行训练注释的要求。
Nov, 2023
提出了一种新颖的基于词形的约束方法,通过使用简单的语言特定规则来改进分布向量空间的语义质量,这种方法可以提高低频词估计的准确性,并在解决语言理解任务的长尾现象方面取得显著的效果。
Jun, 2017
使用跨语言词向量检测印度 14 种语言的同源词,通过知识图谱生成上下文特征表示以提高同源词检测方法,并在 12 种印度语言和 2 种新语言上评估此方法,获得最高 18% 的 F-score 和 2.76 BLEU 的 NMT 改进,最后公开代码和数据集。
Dec, 2021