低资源场景中 PoS 标注器模型的建模
本文调查了低资源自然语言处理的相关方法,其中包括数据增强、遥感监视和迁移学习等技术以帮助在需要训练数据较少的情况下提高神经模型的性能,并通过说明这些方法的差异帮助选择适合特定低资源设置的技术。
Oct, 2020
基于部分结果和功能策略,引入了一种算法来估计整个训练数据库中学习曲线的演变,迭代逼近所需时间的值,独立于学习技术的使用,并且在经过预测级别后,被证明在工作假设方面是正确的,使用户能够根据最终可达到的准确性设定收敛阈值的概念扩展,即使存在扭曲观测也似乎是有效的。我们的目标是评估培训工作量,支持决策制定,以减少在学习过程中对人力和计算资源的需求。该提案在至少三个操作过程中是有意义的,第一个是预测准确性的提升,以衡量达到一定性能水平所需的工作量,第二个是在训练时间内比较系统的效率,以仅完成最适合我们要求的系统的任务,同时准确性的预测也是定制系统的有价值信息,因为我们可以预先估计设置对性能和开发成本的影响。通过生成词性标注器作为示例应用程序,实验结果与我们的预期一致。
Feb, 2024
研究了低资源语言模型预训练,当可用的句子少于 100,000 条时。在低资源情况下,统计 n-gram 语言模型优于最先进的神经模型,主要是因为前者专注于局部上下文。因此,引入了三种方法来提高神经模型在低资源环境下的性能,发现限制模型的自我注意力是最有效的方法,在英语、印地语和土耳其语等多种语言的下游任务中,NLI 和 POS 标记的准确性提高了高达 5%。
May, 2022
该研究使用弱监督方法训练 15 种低资源语言的最新 POS 标注器,并发现即使使用现有最佳技术,在真正的低资源语言中,该标注器仅能正确标注不到一半的单词。因此,这篇研究突出了需要新的和不同的 POS 标注方法来适应低资源语言的需求。
Apr, 2020
提出了一种适用于低资源语言的模型来训练形态标记器,该模型使用 Wesabie 模型进行打标, 通过在语料库中引入 POS 词性标注的元信息,将标记信息从富资源语言映射到贫资源语言,实现了跨语言知识的迁移,可以提高句法分析的效果。
Jun, 2016
我们引入了自适应调度的自适应采样作为构建词性标注器机器学习的一种新方法,目标是加速在大数据集上的训练,同时不显著损失性能。我们的算法通过分析学习曲线的形状几何特征,结合功能模型,在任何时间点上增加或减少采样间隔,从而证明了其在理论上的正确性。此外,通过更加关注训练数据中性能暂时膨胀的区域,我们提高了采样的鲁棒性,防止学习过早停止。该提议经过可靠性评估,验证了模型收敛性,符合我们的预期。虽然测试时使用了具体的停止条件,但用户可以根据自己的特定需求选择任何条件。
Feb, 2024
研究表明,在深度学习背景下,词性标注对于语法分析的作用有限,唯有当标注准确率非常高或资源非常匮乏时才有所帮助;而对于序列标注分析模型而言,词性标注的影响取决于编码方式等因素,其中基于词性的头选择编码方式仅在标注准确率和资源可用性均很高时表现最佳。
Oct, 2022
本文研究了低资源 NLP 中数据不足和数据质量不佳的影响,通过探究 POS 标注和机器翻译这两种任务的实验结果,得出了从高资源语言进行降采样的做法会带来偏差,这表明简单地降采样将引入数据偏差,不应作为低资源 NLP 系统开发的唯一解决方案。
Nov, 2022
零资源环境中的词性标注可以是一种有效的方法,当没有标记的训练数据可用时,特别适用于资源匮乏的语言。本文研究了使用预训练的多语言大型语言模型或在零资源目标语言中将源语言标签映射并训练序列标注模型两种主要技术进行词性标注。我们通过现成的对齐模块探索了后一种方法,并训练了一个隐马尔可夫模型来预测词性标签。我们在以英语为源语言,法语、德语和西班牙语为目标语言的词性标注中评估了转移学习设置。我们的结论是,零资源语言中的映射对于预测词性标签是有益的。
Jan, 2024
该论文对文档级情感分析模型进行了广泛比较评估,在关注模型部署可行性和资源消耗的重要指标方面,考虑了不同的特征提取技术、集成效果、任务特定的深度学习建模和领域无关的大型语言模型(LLMs)。研究发现,尽管微调的 LLM 获得了最高的准确率,但某些替代配置在资源消耗方面提供了巨大的节省,而准确率只有微小的损失。此外,研究还发现,在较小的数据集上,准确率的差异越来越小,而资源消耗的差异却越来越大。
Aug, 2023