辅助语言选择对序列标记改进的影响
本研究探究是否可以通过学习表示语言之间关系的语言表示来进行跨语言任务,而无需使用平行数据。使用去噪自编码器产生 29 种语言的密集嵌入,并在零样本情况下使用 WALS 和两个外部任务(跨语言依赖解析和跨语言自然语言推理)来评估嵌入。
Jun, 2021
研究了第二语言在双语词嵌入中在单语义评估任务中的作用,发现下游任务性能与第二语言与目标语言的相似性之间存在强烈和较弱的正相关性。此外,我们展示了如何将双语词嵌入用于语义语言分类任务,并且跨第二语言的联合语义空间以有意义的方式变化。结果支持语义语言相似性受结构相似性和地理 / 联系的影响的假设。
Jul, 2016
通过多语言学习,并运用层次贝叶斯模型和马尔可夫蒙特卡洛采样技术,我们证明了在无监督词性标注中应用多语言学习的有效性,且在可用语言数量增加时,性能稳定提升。
Jan, 2014
本研究提出三种方法以提高跨语言表示的效果,包括将目标语言的向量空间重新对齐到源语言,去除语言特异性的均值和方差,以及通过去除形态和句子重新排序来增加跨语言相似性。研究发现,这些方法联合使用可以降低跨语言转移障碍。
Aug, 2020
本文中提出采用对抗性训练从辅助语言中提取无标注句子帮助学习跨语言不变表示,进而用于跨语言转移,通过实验证明,对抗性训练能有效提高依存句法分析的跨语言性能。
Sep, 2019
本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素,并使用 BERT 和 BiLSTM 模型和《圣经》作为语料库进行了比较分析,结果表明,词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。
Sep, 2021
提出一种基于双语 CBOW 方法的联合学习方法,通过利用句子对齐语料库获得强健的跨语言词和句子表示,显著提高了跨语言句子检索性能,并在维持单词翻译方面与最先进的方法并驾齐驱,同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平,对单语词向量的提高优势明显。
Dec, 2019
提出了一种适用于低资源语言的模型来训练形态标记器,该模型使用 Wesabie 模型进行打标, 通过在语料库中引入 POS 词性标注的元信息,将标记信息从富资源语言映射到贫资源语言,实现了跨语言知识的迁移,可以提高句法分析的效果。
Jun, 2016