如何选择形态变化数据
本文探索了各种数据选择策略,依靠多个度量,利用了渐变嵌入和损失嵌入方法,以提高针对多语言预训练模型的 POS 标记、NER 和 NLI 任务的 Few-shot 迁移的性能。实验证明,所提出的方法始终优于随机数据选择基线,即使仅使用更少的标记数据进行零 - shot 迁移,也能显著提高性能。
Jun, 2022
提出一种针对低资源语言的自动词形变化生成方案,在神经网络方法、注意力机制、跨语言转移学习等方面做了改进并实现了 15% 的性能提升。发现了语言类别相似和通用表示是跨语言转移学习成功的关键因素。
Aug, 2019
本研究提出通过元学习的方式,以较少的语言资源解决形态学词形变化的任务。研究发现,将数据作为元参数,可以作为引导资源匮乏语言微调的强大初始化点。通过 29 个目标语言的实验,该方法表现出优异的性能,比之前提出的跨语言转移模型提高了 31.7% 的绝对精度,并且平均比之前的最优方法提高了 1.7% 的绝对准确度。
Apr, 2020
这篇论文提出了一种主动学习策略,其中数据筛选算法用于选择有用的训练样本以最小化注释成本,在六种语言中进行了广泛的实验,证明了该策略优于其他主动学习策略,并提出了在特定的输出标签对之间最大程度减少混淆的 AL 问题。
Nov, 2020
在工业规模的环境中,特别是在资源有限的语言中,我们通过熵和 EL2N 评分来评估潜在的训练样本的 “有用性” 或 “难度”,并展示了如何使用这些度量来选择用于训练监督机器学习模型的重要样本。我们使用这些度量从大量的 “弱信号标记” 数据中筛选高质量的数据集,然后进行以评分为基础的选择来增强训练数据实验,与随机选择的基线技术相比,结果显示了语义错误率下降 2% 和领域分类错误率下降 4%-7%。
Nov, 2023
本文研究了使用数据增强和神经集成学习技术来减轻预训练神经语言模型在医学或低资源语言等特定领域中的数据稀缺问题。实验结果表明,这些简单有效的解决方案可以显著提高这些领域下神经语言模型的性能。
Feb, 2023
本文提出了一种基于数据增强的自训练样本选择框架,使用熵和模型预测作为选择器,结合单词重叠和语义相似性来筛选高质量的样本。实验结果表明该框架是有效和简单的。
Feb, 2023
在资源匮乏的情景下,我们评估了早期学习曲线估计作为选择在非深度学习者应用的最适模型的实用机制,以提高性能并控制成本。使用西伊比利亚 - 罗曼斯语族中的加利西亚语作为案例研究,实验结果与我们的预期一致。
Feb, 2024