通过基于多语种数据和联合嵌入的分布式假设扩展学习语义表示的新技术,学习出在跨语言上语义等价的句子之间高度对齐而在不相似的句子之间保持足够距离的表示。此方法不仅适用于单词层面,还可以对文档进行语义层面的表示学习。在两个跨语言文档分类任务上,我们的模型都能胜过之前的最佳成果,并通过定性分析和枢轴效应研究证明了我们学习到的语义表示合理且能够捕捉跨语言语义关系。
Apr, 2014
使用多种语言 Wikipedia 来为 100 多种语言训练单词嵌入表示,并将其应用在词性标注中取得了与英语、丹麦语和瑞典语接近最新成果的表现。此外,通过单词分组的距离等方式,进一步研究了这些嵌入所捕获的语义特征,并将这些嵌入公开以帮助多语言应用的开发和增强.
Jul, 2013
本文提出了一种基于不同主题学习单词的多个分布式表示的分布式语义模型,该模型通过不同主题训练不同的 DSM,然后将每个基于主题的 DSM 对齐到一个公共向量空间,实现了最先进的上下文词语相似性任务,并且在 NLP 下游任务中表现出比单一原型模型更好的性能。
Apr, 2019
本文系统地比较了学习分布式短语或句子表示方法的模型,并发现最佳方法取决于预期应用程序,对于 supervised 系统,更深层次、更复杂的模型更具优势,但建立可通过简单空间距离指标解码的表示空间最好采用浅的 log-linear 模型。我们还提出了两个新的无监督表示学习目标,旨在优化训练时间、领域可移植性和性能之间的平衡。
Feb, 2016
本文探讨了如何通过在不同语言中打标注的数据来学习语义解析器的分布式逻辑形式表示,以提高特定语言下单语义解析器的性能,并在标准的多语言 GeoQuery 数据集上得到了改进的结果。
Jun, 2018
本文介绍了一种比较多语言计算表示相互关系的方法,可以重建语言学家所假定的类似的分类树,同时提出了一种检测语言家族之间语义漂移的度量,并使用基于单词和句子的多语言模型进行了实验,结果表明多语言分布式表示可以不需要任何词源学信息保存语言之间的关系。
现代神经网络利用分布式表示来编码词汇意义,并通过多语言数据集和语言分析工具评估歧义性与词汇意义。
Jun, 2024
本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示,尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系,发现结构相似是最能影响语言表示相似性的,而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。
Jan, 2019
本文提出一种基于随机优化的方法,利用概率嵌入技术实现了跨领域的编码对齐,可以成功用于无监督单语言嵌入的双语词汇表推断,且在无监督词汇翻译任务中表现优异。
Mar, 2022
本论文探讨了利用多个训练目标来学习句子表示的多任务学习框架,提出了一种有效实现的方法,通过多项实验得出该方法可以在转移学习和低资源环境中大幅度提高语言处理的效率。
Mar, 2018