基于语料库的对照集用于检测低资源英语种类中的形态句法特征

COLINGSep, 2022

基于语料库的对照集用于检测低资源英语种类中的形态句法特征

Corpus-Guided Contrast Sets for Morphosyntactic Feature Detection in Low-Resource English Varieties

Tessa Masis, Anissa Neal, Lisa Green, Brendan O'Connor

TL;DR本文探讨了自然语言变体的研究，通过识别语言特征（例如零 be 动词结构）在语料库中的分布情况，分析这些特征在不同语境中的变化，提出了一种基于人工编辑的自动检测方法，并在印度英语和非裔美国英语方面的实验中展示了该方法的有效性。

Abstract

The study of language variation examines how language varies between and within different groups of speakers, shedding light on how we use language to construct identities and how social contexts affect language use. A common method is to identify instances of a certain →

language variation linguistic feature morphosyntactic feature detection low-resource english varieties contrast sets

发现论文，激发创造

日耳曼语系低资源语言和方言语料库调查

这篇论文对德国 ic 低资源语言变体的可用语料库进行了系统性调查，发现手工注释的语言资源稀缺，大多数仅涵盖形态和句法，但活跃的研究社区正在不断发展。作者还特意分享了超过 80 个语料库的大概率浏览与查看。

Apr, 2023

学习识别方言特征

本文介绍了方言特征检测的任务，并提出了两种基于预训练转换器的多任务学习方法。评估结果表明，模型能够以很高的准确性识别许多特征，并且几个最小配对的样本可与成千上万个标注样本产生同样的效果。此外，方言特征检测具有方言密度和方言分类器的下游适用性。

Oct, 2020

自然故事语料库

为了比较人类语言处理模型，许多研究使用富自然语言材料的语料库来预测参与者反应，但这些研究所使用的许多语料库是基于自然文本的，因此缺少许多频率低的句法结构，而这些句法结构是区分处理理论所必需的。本文提出一种新的语料库，包含许多低频句法结构且易于被母语人士理解，该语料库已标注手动修正的语法树，并包括了自定速度阅读时间的数据。

Aug, 2017

计算语言学文档实验用的极低资源语音语料库

这篇论文介绍了一个收集自非洲 Bantu C25 语族中的一种语言 Mboshi 的语音语料库，在几乎零的资源条件下构建了该语料库，并利用其中的数据完成了口语术语发现。该论文讨论了如何收集，清理和处理数据，并将该数据集提供给社区进行可重现的计算语言文献研究和评估。

Oct, 2017

低资源语言的跨语言形态标注

提出了一种适用于低资源语言的模型来训练形态标记器，该模型使用 Wesabie 模型进行打标，通过在语料库中引入 POS 词性标注的元信息，将标记信息从富资源语言映射到贫资源语言，实现了跨语言知识的迁移，可以提高句法分析的效果。

Jun, 2016

L2 语言学习的自动提取语法概念的教师感知

通过自动发现和可视化语法描述，本研究旨在帮助语言教育专家自动创建材料，以便教授印度语言中的语法和语义知识。

Oct, 2023

自动提取语法知识对 L2 语言学习的教师感知

本研究介绍了一个自动框架，旨在通过自动发现和可视化语法的不同方面来促进语言教学，其中从自然语料库中提取描述单词排序、一致性、语法标记或词形成及词汇学习的描述，并显示例证。作者在印度语言 Kannada 和 Marathi 上应用此方法，以评估其实用性，并邀请北美的语言教育家对这些语言进行手动评估。教师们认为这些材料有趣，可以用作自己的课程准备或学习者评估的参考资料。

Jun, 2022

利用密切相关语言的形态学知识进行弱监督的低资源语言深度同源检测框架

为了解决资源匮乏语言中的迁移学习问题，本研究提出了一种基于形态学知识的跨语言弱监督深度同源词检测框架，通过训练编码器获得语言的形态学知识，并将此知识转移至密切相关的语言以进行无监督和弱监督的同源词检测。在不同的语系上进行了实验，得到了显著的改进和超越最先进的监督和无监督方法的结果。该模型对于任何语系的各种语言都具有扩展性，因为它克服了对同源词对进行训练注释的要求。

Nov, 2023

Morph-fitting：用简单的特定语言规则微调词向量空间

提出了一种新颖的基于词形的约束方法，通过使用简单的语言特定规则来改进分布向量空间的语义质量，这种方法可以提高低频词估计的准确性，并在解决语言理解任务的长尾现象方面取得显著的效果。

Jun, 2017

利用跨语言特征提高低资源语言同源词检测的效果

使用跨语言词向量检测印度 14 种语言的同源词，通过知识图谱生成上下文特征表示以提高同源词检测方法，并在 12 种印度语言和 2 种新语言上评估此方法，获得最高 18% 的 F-score 和 2.76 BLEU 的 NMT 改进，最后公开代码和数据集。

Dec, 2021