另一个对形态标记的死胡同?扰动输入和解析
研究了词级语言标注对资源不足的神经机器翻译的影响,通过实验发现,当在源语言进行标注时,语法 - 语义描述标签在某些语言对中表现优于词性标签;但在目标语言进行标注时,词性标签在自动评估指标上始终优于语法 - 语义描述标签,尽管后者可改善输出的语法性。该研究提供了对此结果的详细分析。
Jan, 2024
通过错误分析神经 UPOS 标签器,我们评估了为什么使用黄金标准标签对于解析性能有很大的积极贡献,而使用预测的 UPOS 标签要么损害性能,要么提供微不足道的改进。我们评估了神经依赖分析器隐含地学习了哪些单词类型,以及这与标记器产生的错误有何关系,以解释使用预测标签对解析器几乎没有影响的原因。同时,我们还对导致标记性能降低的上下文进行了简短分析,然后基于标记器的错误屏蔽了 UPOS 标签,以分离标记器正确分类和错误分类的 UPOS 标签的贡献以及标记错误的影响。
Apr, 2021
研究表明,在深度学习背景下,词性标注对于语法分析的作用有限,唯有当标注准确率非常高或资源非常匮乏时才有所帮助;而对于序列标注分析模型而言,词性标注的影响取决于编码方式等因素,其中基于词性的头选择编码方式仅在标注准确率和资源可用性均很高时表现最佳。
Oct, 2022
本文通过实证研究,考察了在六种不同的语言上,使用不同的形态学特征开发上下文词形还原器对下游表现的影响,并发现:(i)为词形还原器提供细粒度的形态学特征在训练时并不那么有益,即使对于词汇连接语言;(ii)实际上,现代上下文词表示似乎隐式地编码了足够的形态信息,以获得无需查看任何明确形态信号的良好上下文词形还原器;(iii)最佳的领域外词形还原器是使用简单的 UPOS 标签或者没有训练形态学的模型;(iv)目前的词形还原评估实践并不足以清晰地区分模型之间的差异。
Feb, 2023
本文通过对预训练词向量、字符模型和 POS 标签在基于转移的依赖分析器中的相互作用进行综合分析,认为它们之间存在复杂的相互作用,并且在分别应用它们时,均较使用随机初始化的词向量的基线系统都有了大幅度的改进,但组合它们很快就会显得变得没有预期的好,特别是在具有丰富形态的低频开放类词汇和有歧义性的高频功能词之间,将它们灵活组合使用可以得到同样的结果,同时对于具有小字符集的语言,尤其是对于形态丰富的语言,大的字符嵌入大小也有助于提高依赖分析的品质
Aug, 2018
提出了一种适用于低资源语言的模型来训练形态标记器,该模型使用 Wesabie 模型进行打标, 通过在语料库中引入 POS 词性标注的元信息,将标记信息从富资源语言映射到贫资源语言,实现了跨语言知识的迁移,可以提高句法分析的效果。
Jun, 2016
通过将词汇学特征添加到 LSTM 和 BERT 模型中,我们比较了多种语言中命名实体识别、依赖解析和评论过滤任务的基线和改进模型表现,结果显示,根据所添加的特征的质量和任务的不同,这些特征对于 LSTM 的 NER 和 DP 任务表现提升效果较好,而不太适用于 CF 任务;对于 BERT,只有在高质量特征时才会对 DP 表现有所改善,而且相对于强大的多语言 BERT 模型,语言特异性 BERT 变体的改善程度较小。
Nov, 2020
本文通过实证研究语义解析在对抗攻击下的鲁棒性,提出了一种可扩展的方法来构建鲁棒性测试集,并回答了五个相关问题,检测了现有语义解析器在鲁棒性测试集上的表现,并评估了数据增强的效果。
Feb, 2021
本文提出一种新的 O (n^3) 依赖语法分析算法,并开发了三种不同的随机化方式。我们提出了词汇亲和模型、意义标注模型和生成模型。通过在训练文本上评估三种模型的分析性能并给出了初步的实证结果,其中生成模型在分析性能上表现显著优于其他模型,并且在词性标注方面表现同样出色。
Jun, 1997