跨语言词嵌入模型调查
通过系统比较四种不同的方法,本研究对于在四个不同语言对上诱导跨语言词向量的方法进行了评估,包括内在评估和外在评估,并展示在某些任务上,廉价监督模型的性能是有竞争力的。
Apr, 2016
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。
Aug, 2019
本研究探究是否可以通过学习表示语言之间关系的语言表示来进行跨语言任务,而无需使用平行数据。使用去噪自编码器产生 29 种语言的密集嵌入,并在零样本情况下使用 WALS 和两个外部任务(跨语言依赖解析和跨语言自然语言推理)来评估嵌入。
Jun, 2021
多语言大型语言模型的跨语言迁移学习是重要的,通过对输入嵌入的相似性进行解释,本研究揭示了语言模型的语言表示,在不同模型族的嵌入中存在语言编码和跨语言语义相似性的差异,这为研究预训练和模型架构对语言表示的影响以及嵌入在语言模型中的跨语言表示的应用提供了机会。
Nov, 2023
近年来,跨语言对齐是多语言语言模型研究的一个活跃领域。本文概述了改进跨语言对齐的技术方法,并总结了该领域的见解。我们提供了对大量论文的定性总结结果。最后,我们讨论了这些见解不仅适用于已经深入研究这一主题的编码器模型,还适用于编码器 - 解码器甚至只有解码器的模型,并指出平衡语言中立和语言特定信息的有效权衡是关键。
Apr, 2024
使用高覆盖率的字典和 EM 式训练算法,该方法解决了以前的跨语言词嵌入方法中的资源需求大、难以融合单语言数据或难以处理多义词等问题,在双语词汇表归纳任务中实现了表现卓越的结果,并且在单语词汇相似度和跨语言文档分类任务上也取得了有竞争力的结果。
Jun, 2016
该研究提出了一种神经嵌入模型,利用双语词典将文字定义映射到双语目标词汇,探索不同的句子编码技术以及采用多任务学习和联合学习等关键学习策略来增强学习过程,实验结果表明,该模型在跨语言反向字典检索任务和双语释义识别问题上表现优异,并有效地解决了双语释义识别问题。
Aug, 2018
提出一种基于双语 CBOW 方法的联合学习方法,通过利用句子对齐语料库获得强健的跨语言词和句子表示,显著提高了跨语言句子检索性能,并在维持单词翻译方面与最先进的方法并驾齐驱,同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方法的水平,对单语词向量的提高优势明显。
Dec, 2019
本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素,并使用 BERT 和 BiLSTM 模型和《圣经》作为语料库进行了比较分析,结果表明,词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。
Sep, 2021