共享跨语言空间中的对齐探索
通过系统比较四种不同的方法,本研究对于在四个不同语言对上诱导跨语言词向量的方法进行了评估,包括内在评估和外在评估,并展示在某些任务上,廉价监督模型的性能是有竞争力的。
Apr, 2016
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对“高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到”的观点提出了质疑。
Aug, 2019
本文研究了两种多语言文本学习方法,即alignment和joint training,并提出了将这两种方法结合的框架。实验证明,该框架改善了现有方法的局限性,在MUSE双语词汇诱导(BLI)基准测试中性能优于现有方法,并在CoNLL跨语言NER基准测试上产生了最新的结果。
Oct, 2019
该论文探讨了一种嫁接预训练语言模型和平行文本的方法来提高单词对齐质量的方法,提出了从这些微调模型中有效提取对齐信息的新方法,并证明了它们在五种语言对上优于之前的最先进模型,还演示了开源的具备预训练模型的AWESOME单词嵌入式多语言编码对齐器的实际性能
Jan, 2021
本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素,并使用BERT和BiLSTM模型和《圣经》作为语料库进行了比较分析,结果表明,词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。
Sep, 2021
本研究采用密度匹配和密度建模的方法进行多语种词向量的对齐,提出基于Normalizing Flow的Real-NVP和GAN-Real-NVP两种监督学习和无监督学习的密度对齐方法,并通过验证标准来指导训练过程。实验结果表明,我们的方法在有限或没有平行数据的情况下均能显著提高多项NLP任务的表现。
Jan, 2022
通过对多个预训练的多语种语言模型进行研究,探究其输出中的异常维度和它们对各种跨语言语义相似性任务表现的影响。通常使用在平行资源上进行微调的sentence transformers在这些任务中表现更好,且表示更各向同性。研究人员通过不同的操作(例如消除异常维度、聚类基于同性等操作)来改进多语种表示。
Jun, 2023
近年来,跨语言对齐是多语言语言模型研究的一个活跃领域。本文概述了改进跨语言对齐的技术方法,并总结了该领域的见解。我们提供了对大量论文的定性总结结果。最后,我们讨论了这些见解不仅适用于已经深入研究这一主题的编码器模型,还适用于编码器-解码器甚至只有解码器的模型,并指出平衡语言中立和语言特定信息的有效权衡是关键。
Apr, 2024
本研究探讨了多语言大型语言模型(LLM)在语言间的向量空间对齐问题,这一过程存在一些不足之处。我们发现,较大的模型在不同语言之间的概念对齐质量较高,但通用性主要体现在类型相似的语言和抽象概念中。这项工作揭示了提示基础嵌入的对齐效果优于词嵌入,尽管其投影较不线性,表明一些隐式学习的对齐被提示方法有所破坏。
Oct, 2024
本研究解决了现有跨语言词汇对齐方法中对整体语言空间对齐的关注不足,转而探讨地方和文化差异对词汇意义的影响。通过提出新的基于上下文嵌入的度量,并进行合成和自然验证,本研究揭示了新语言模型在词汇对齐中的潜力,促进了更加准确的跨语言词汇对齐方法的发展。
Oct, 2024