关键词morphological inflection
搜索结果 - 15
- COLING聚焦于 OOV:如何变化它们?
我们的研究聚焦于词形屈折在词汇外条件下的问题,通过开发三个系统并测试在词汇外数据集上的性能,我们发现逆行模型在现实情境下的词汇外数据上胜过了所有神经模型,并且由我们的 seq2seq 模型在 SIGMORPHON 2022 共享任务数据的大 - EMNLP探索语言揭示词形概括
跨语言计算建模的形态变化研究通常采用与语言无关的数据分割算法。本文采用特定语言的探测器来测试形态变化的一些普遍规律。通过在英语、西班牙语和斯瓦希里语这三种形态学上有明显区别的语言上测试这些探测器,我们发现了三种主要的形态变化系统在屈折类和特 - ACL形态变化:一次现实检验
研究分析了词形变化在子词 NLP 中的高性能和高可变性的原因,提出了更好反映实际使用情况的数据采样和评估策略,探讨了当前变形系统的泛化能力。
- 自动形态学变化中组合式数据增强的理解
本研究探讨了数据增强策略 StemCorrupt 的理论方面,揭示其底层数据分布的内在组合结构,并研究了 StemCorrupt 的数据效率和语言类型学特征对增强策略的影响。实验结果表明,选择高多样性和高预测不确定性的数据点可以显著提高 S - EMNLP如何选择形态变化数据
本篇论文研究了对于低资源语言的狭缺数据问题,通过使用主动学习方法,基于置信度、熵等策略选择最具信息的数据进行更准确的模型训练,实验证明这种方法可以显著提高模型性能。
- 使用时序 GAN 建模低资源语言的形态结构
本文讨论了使用仅有的 100 个样本字符串训练出的一个 GAN 生成人工语言字符串的方法,并探究其在计算语言学中对于建模低资源语言的形态学变化的应用。
- UniMorph 4.0: 通用形态学
这篇论文介绍了近几年在 Universal Morphology 项目中对语言无关的特征模式和注释数据资源的扩展和改进,以及推动对派生形态学的纳入。
- EMNLP形态学屈折的最小监督
该研究使用少量标记的数据引导标注词形变化,利用不同类型的规律,通过类比词标记和距离对词配对,证明了手工标记许多示例可能是不必要的。
- Transformer 能通过 Wug 测试吗?调整神经形态变化模型中的复制偏差
研究表明,将深度学习序列模型用于形态学变化的任务可以取得良好的结果。然而标准模型,如 Transformer,在推广变形模式方面表现很差。为了解决这个问题,我们提出了一种基于子串的生成模型,能够更好地处理之前没有训练过的词形,并在实验中获得 - ACL神经形态变化中的搜索错误探寻
该研究探讨了神经序列到序列模型在语言生成任务中的应用,发现在单词级任务中,准确推断这些模型会发现空字符串常常是全局最优解,但在形态学变化的情况下,空字符串几乎不是模型最可能的解,且贪婪搜索通常能找到全局最优解。这表明,许多神经模型的不良校准 - ACL将 Transformer 应用于字符级转换
这项研究比较了循环神经网络和 transformer 在字符级转换任务方面的表现,发现 batch size 在 transformer 的性能上扮演了关键的角色,在足够大的 batch size 下,transformer 的表现强于循环 - AAAI学习学习资源贫乏语言的形态变化
本研究提出通过元学习的方式,以较少的语言资源解决形态学词形变化的任务。研究发现,将数据作为元参数,可以作为引导资源匮乏语言微调的强大初始化点。通过 29 个目标语言的实验,该方法表现出优异的性能,比之前提出的跨语言转移模型提高了 31.7% - EMNLP低资源形态变化的极限探究
提出一种针对低资源语言的自动词形变化生成方案,在神经网络方法、注意力机制、跨语言转移学习等方面做了改进并实现了 15% 的性能提升。发现了语言类别相似和通用表示是跨语言转移学习成功的关键因素。
- ACL稀疏序列到序列模型
提出了基于 alpha-entmax 变换的稀疏序列到序列模型,能产生稀疏的对齐和分配概率到一组合理的输出,这在形态学变化和机器翻译的实验中展现了比密集模型更好的表现。
- EMNLP在线片段到片段神经转换
介绍了一种在线神经序列到序列模型,它在读取输入时学习在编码和解码段之间交替。通过独立跟踪编码和解码表示,我们的算法允许在训练期间对潜在分隔进行精确的多项式边缘化,并且在解码期间,使用波束搜索来找到最佳对齐路径以及预测的输出序列,实现在线生成