如何选择形态变化数据

EMNLPOct, 2022

Eeny, meeny, miny, moe. How to choose data for morphological inflection

Saliha Muradoglu, Mans Hulden

TL;DR本篇论文研究了对于低资源语言的狭缺数据问题，通过使用主动学习方法，基于置信度、熵等策略选择最具信息的数据进行更准确的模型训练，实验证明这种方法可以显著提高模型性能。

Abstract

data scarcity is a widespread problem in numerous natural language processing (NLP) tasks for low-resource languages. Within morphology, the labour-intensive work of tagging/glossing data is a serious bottleneck for both NLP and language documentation. →

data scarcity active learning morphological inflection transformer model model confidence

发现论文，激发创造

形态学屈折的最小监督

该研究使用少量标记的数据引导标注词形变化，利用不同类型的规律，通过类比词标记和距离对词配对，证明了手工标记许多示例可能是不必要的。

Apr, 2021

多语言少样本转移数据选择的关键是模型中的多样化和不确定性

本文探索了各种数据选择策略，依靠多个度量，利用了渐变嵌入和损失嵌入方法，以提高针对多语言预训练模型的 POS 标记、NER 和 NLI 任务的 Few-shot 迁移的性能。实验证明，所提出的方法始终优于随机数据选择基线，即使仅使用更少的标记数据进行零 - shot 迁移，也能显著提高性能。

Jun, 2022

低资源形态变化的极限探究

提出一种针对低资源语言的自动词形变化生成方案，在神经网络方法、注意力机制、跨语言转移学习等方面做了改进并实现了 15% 的性能提升。发现了语言类别相似和通用表示是跨语言转移学习成功的关键因素。

Aug, 2019

学习学习资源贫乏语言的形态变化

本研究提出通过元学习的方式，以较少的语言资源解决形态学词形变化的任务。研究发现，将数据作为元参数，可以作为引导资源匮乏语言微调的强大初始化点。通过 29 个目标语言的实验，该方法表现出优异的性能，比之前提出的跨语言转移模型提高了 31.7% 的绝对精度，并且平均比之前的最优方法提高了 1.7% 的绝对准确度。

Apr, 2020

减少词性标注主动学习中的混淆

这篇论文提出了一种主动学习策略，其中数据筛选算法用于选择有用的训练样本以最小化注释成本，在六种语言中进行了广泛的实验，证明了该策略优于其他主动学习策略，并提出了在特定的输出标签对之间最大程度减少混淆的 AL 问题。

Nov, 2020

数据选择的熵和边缘得分指标的全面基准评估

在工业规模的环境中，特别是在资源有限的语言中，我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”，并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集，然后进行以评分为基础的选择来增强训练数据实验，与随机选择的基线技术相比，结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。

Nov, 2023

形态变化：一次现实检验

研究分析了词形变化在子词 NLP 中的高性能和高可变性的原因，提出了更好反映实际使用情况的数据采样和评估策略，探讨了当前变形系统的泛化能力。

May, 2023

缓解大型语言模型的数据稀缺问题

本文研究了使用数据增强和神经集成学习技术来减轻预训练神经语言模型在医学或低资源语言等特定领域中的数据稀缺问题。实验结果表明，这些简单有效的解决方案可以显著提高这些领域下神经语言模型的性能。

Feb, 2023

如何为文本数据增广选择 “好” 的样本

本文提出了一种基于数据增强的自训练样本选择框架，使用熵和模型预测作为选择器，结合单词重叠和语义相似性来筛选高质量的样本。实验结果表明该框架是有效和简单的。

Feb, 2023

低资源场景中 PoS 标注器模型的建模

在资源匮乏的情景下，我们评估了早期学习曲线估计作为选择在非深度学习者应用的最适模型的实用机制，以提高性能并控制成本。使用西伊比利亚 - 罗曼斯语族中的加利西亚语作为案例研究，实验结果与我们的预期一致。

Feb, 2024