PPT: 简约的解析器转移,用于无监督的跨语言适应
本文提出了一种生成模型,通过结构化的正则先验利用标记源数据和未标记目标数据联合学习源模型和目标模型的参数来解决在距离较远的语言之间跨语言迁移的问题,并使用可逆投影来学习一种新的公共嵌入空间,以对不完美的跨语言词嵌入输入进行补偿。该方法在使用英语作为唯一源语料库并传输到广泛的目标语言的通用依赖树库上进行评估,在与英语相距较远的该数据集中的 10 种语言中,我们的方法相较于使用最先进的判别模型的直接转移方法,在词性标注和依赖分析方面分别获得了平均 5.2%和 8.3%的绝对改善。
Jun, 2019
本文提出了一种简单而有效的方法,可以在没有大量翻译数据的情况下进行跨语言的句法转移,这种方法基于三个步骤:1)推导跨语言单词簇的方法,可用于多语言解析器;2)将目标语言的词汇信息转移到源语言树库;3)将这些步骤与 Rasooli 和 Collins(2015)的密度驱动注释投影方法相结合。该方法在多个语言中实现了针对先前工作的最新进展,在只使用比利时圣经作为翻译数据的情况下,与以前的工作相比,Europarl 语料库的结果表现出额外的提升。最后,作者在通用依赖语料库的 38 个数据集上进行了结果展示。
Oct, 2016
本文中提出采用对抗性训练从辅助语言中提取无标注句子帮助学习跨语言不变表示,进而用于跨语言转移,通过实验证明,对抗性训练能有效提高依存句法分析的跨语言性能。
Sep, 2019
本篇研究调查了无监督预训练是否能够跨语言传输,以便自动语音识别系统(ASR)实现跨语言和多语言。研究表明,使用略加修改的对比性预测编码(CPC)预训练方式,能够提取和其他语言效果相当或甚至优于监督预训练的特征,证明了无监督方法在语言资源稀缺的情况下具有潜力。
Feb, 2020
本文针对源语言和目标语言单词顺序的不同问题,提出了一种基于 “圣经” 语料库和跨语言词表示的依存句法跨语言迁移方法。该方法在训练前改变源语言语料的顺序,使得在欧洲语系以外的语言中达到更高的精度。在多语言数据集上,该方法在 68 个树库(38 种语言)的实验中表现良好,并在 12 种非欧洲语言的 16 个树库中实现了 3.3%的平均 UAS 绝对精度提高。
Mar, 2019
本文提出一种多任务编码 - 解码模型,通过多语言领域内语料库和英文 - 逻辑形式对标数据,在没有平行语料的情况下完成跨语言的语义解析,模型加强了语言无关编码,显著优于传统基于翻译的算法,有时能与有监督模型的上线媲美。
Apr, 2021
通过使用预训练模型,我们提出了一种零样本跨语言转移的新方法,它能够在低资源语言上实现任务感知的双语信息对齐,并利用未标记数据进行自我训练,从而实现多种任务上的最新技术提升,无需并行语料库或翻译模型。
Oct, 2023
本文介绍了在半监督下对自然语言句子进行解析的工作,重点是去除词汇的依赖关系解析器的多源跨语言转移。首先,评估了树库注释风格对解析性能的影响,重点是介词附着风格。然后,我们提出了 KLcpos3,一种经验性的语言相似度测量方法,专门用于多源去词汇解析器转移中源解析器加权。最后,基于训练解析器模型的插值,引入了一种新的资源组合方法。
Jun, 2015
本研究探讨了在跨语言依存分析中,语言的语言属性如何进行有效应用,通过使用语义知识等多种语言语料库统计数据对推理过程进行指导,使用拉格朗日松弛和后验正则化等技术来进行推理,实验表明拉格朗日松弛和后验正则化的推理显着提高了 19 个目标语言中的 15 个和 17 个的性能表现,尤其是对于源语言不同的目标语言。
Sep, 2019
本篇论文研究了是否可以利用大规模多语言语料库(multilingual BERT)上预训练的现成双向深度句子表征,开发出一种无监督的通用句法分析器,以支持低资源语言的处理。实验结果表明,我们的方法在六种真正的低资源语言中均优于 CoNLL 2018 语言特定系统,但仍存在一些限制,如句法分析精度仍然随训练语言的变化而变化,并且在某些目标语言中,零 - shot 转移在所有测试条件下都无法成功,这引发了人们对整个方法的普适性问题的担忧。
Oct, 2019