不止于皮毛:用汉字增强韩语的词表示
本文提出了一种新颖的基于神经网络的架构,用于引导组合跨语言词表示,利用双语和单语数据,通过单语包含准则来实现,评估结果超越了以前的方法,具体的,在英语到德语和德语到英语的子任务中获得了 92.7%和 84.4%的准确度,较之以前的最高值,前者提高 0.9%,后者提高了 7.7%的准确度和 33.0% 的误差降低。
Dec, 2014
该研究探讨了是否可以利用不同语言之间的字符级相似性实现跨语言文本分类,并提出了一个利用交叉语言字符级子词相似性的框架 (CACO),结合字符嵌入器和基于词的分类器。实验结果表明利用字符级别的知识转移比使用基于词的转移在相关语言间更有效。
Dec, 2018
使用双向 LSTM 网络与相似度度量的对比损失函数,通过在共同空间中学习资源贫乏和资源丰富句子的表示方法,实现了情感分析和表情符预测等文本分类任务中对资源贫乏语言(如印地语和泰卢固语)和资源丰富语言(如英语和西班牙语)进行有效分类的目标。
Jun, 2018
本研究探究是否可以通过学习表示语言之间关系的语言表示来进行跨语言任务,而无需使用平行数据。使用去噪自编码器产生 29 种语言的密集嵌入,并在零样本情况下使用 WALS 和两个外部任务(跨语言依赖解析和跨语言自然语言推理)来评估嵌入。
Jun, 2021
本文研究表明神经语言模型在多语言语料库上的训练可以用来学习语言的分布式表示,尤其是在语料库被翻译成英文的情况下。我们研究了语言表示与各种相似性之间的相关性和因果关系,发现结构相似是最能影响语言表示相似性的,而遗传关系则是一个混淆因素。这项研究可以促进自然语言处理和语言学的相互发展。
Jan, 2019
本文提出了一种使用深度双语查询 - 文档表示来提高低资源跨语言文档检索性能的方法,并通过包括查询似然得分等额外特征,有效学习使用少量相关性标签为低资源语言对重新排序检索到的文档的模型。实验结果表明,本模型在 MATERIAL 数据集上优于竞争的基于翻译的对英斯瓦希里语、英语 - 塔加洛语和英语 - 索马里语跨语言信息检索任务的基线模型。
Jun, 2019
通过在关系抽取任务中引入语言表示和语义图,我们扩展了现有研究,并探讨了它们对跨领域性能的影响。我们发现,这些语言表示和语义图可以显著提高少样本学习的性能,并且在不同领域中具有相当的实用性。
Jul, 2023
本研究使用神经机器翻译框架跨越六种完全不同的语言,在学习联合句子表示方面。我们的目标是构建一种与语言无关的表示形式,有可能捕捉到基础的语义。我们定义了一种新的跨语言相似度衡量方式,对我们的模型学习出的 140 万个句子表示进行比较,并研究了相似句子的特征。实验证据表明,嵌入空间中相似的句子实际上具有高度的语义相关性,但通常具有不同的结构和语法。这种关系也适用于不同语言之间的比较。
Apr, 2017
通过基于多语种数据和联合嵌入的分布式假设扩展学习语义表示的新技术,学习出在跨语言上语义等价的句子之间高度对齐而在不相似的句子之间保持足够距离的表示。此方法不仅适用于单词层面,还可以对文档进行语义层面的表示学习。在两个跨语言文档分类任务上,我们的模型都能胜过之前的最佳成果,并通过定性分析和枢轴效应研究证明了我们学习到的语义表示合理且能够捕捉跨语言语义关系。
Apr, 2014
该研究提出了一种神经嵌入模型,利用双语词典将文字定义映射到双语目标词汇,探索不同的句子编码技术以及采用多任务学习和联合学习等关键学习策略来增强学习过程,实验结果表明,该模型在跨语言反向字典检索任务和双语释义识别问题上表现优异,并有效地解决了双语释义识别问题。
Aug, 2018