- ACL通过人工混合数据训练来提升零样本跨语言检索
本研究探讨了如何将零 - shot 模型从高资源语言(一般是英语)迁移到其他语言,结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此,我们提出利用双语词典生成人工混合语言的数据来训练排名模型,我们对从跨语言词 - EMNLP使用交叉编码器重新排序提高双语词典归纳能力
本文提出了 BLICEr(BLI with Cross-Encoder Reranking)方法,是一个半监督的后处理重排序方法,用于任意预先计算过的 CLWE 空间,取得了基于两个标准 BLI 基准的新的最先进结果,涵盖了各种不同语言的宽 - 超几何空间中的跨语言词嵌入
本文介绍了一种将超球面上的 Poincaré 模型与 Word2Vec 模型相结合的方法,用于从德 - 英平行语料库中学习跨语言单词表示,并且实验证明通过保留潜在的层级信息,在超球面上的表示法可以提供更好的跨语言嵌入。
- ACL低资源语言的同构跨语言嵌入
本论文提出了一种跨语言词嵌入学习框架,其综合利用相关高资源语言,以解决低资源语言跨语言表示学习中的几何结构相似度不足的问题,并通过双语词表感应和特征值相似性等多个语言对的实验验证,在新颖性和性能上均有所提升。
- COLING利用跨语言特征提高低资源语言同源词检测的效果
使用跨语言词向量检测印度 14 种语言的同源词,通过知识图谱生成上下文特征表示以提高同源词检测方法,并在 12 种印度语言和 2 种新语言上评估此方法,获得最高 18% 的 F-score 和 2.76 BLEU 的 NMT 改进,最后公开 - ACL通过 L1 范数优化进行跨语言词嵌入细化
本文提出了一种基于曼哈顿距离的后处理方法来提高跨语言词向量的质量,并在十种不同的语言和语料库上进行了广泛的实验证明该方法可以提高词向量在双语词典归纳和自然语言推理任务中的性能。
- COLING多义词语境向量跨语言对齐
本文提出了一种新颖的方法,在从双语词典中获取跨语言信号的基础上,通过利用上下文语境嵌入实现词义级别上的对齐,进而在多种语言之间预训练跨语言模型,以在诸如命名实体识别、情感分类等任务中获得表现上的突破。
- ACL超越离线映射:通过上下文锚定学习跨语言词向量
本研究提出了一种基于弱监督(仅有相同单词列表)的方法,通过固定目标语言的嵌入并学习与之对齐的源语言的嵌入来解决不同语言的单词嵌入相似性不一致的问题,并在双语词表归纳和 XNLI 任务上取得了较好的结果,相比于传统的映射方法表现更好。
- 多重对抗学习用于跨语言单词嵌入
提出了一种基于多对抗学习的新方法,用于在远程语言之间诱导跨语言词嵌入,改善了以往单映射方法的性能,特别是对于远程语言的情况
- SIGIR跨语言 IR 的神经匹配模型研究
通过研究交互式神经匹配模型,结合多语言词向量,为跨语言信息检索建立端到端系统提供了途径。
- ACL为什么过拟合并不总是不好:将跨语言词向量改装成词典
该研究利用 CLWE 实现双语词典识别,提出引入修正策略来缓解因线性投影方法欠拟合训练字典而导致下游任务中推广性不足问题,并通过实验证明了该方法对训练字典的重要性及 BLI 评价不足的原因。
- EMNLPLNMap: 基于潜空间非线性映射的双语词典感应中的同构假设偏移
提出了一种新的半监督方法,通过两个独立训练的自编码器的潜在空间使用非线性映射,学习用于双语词汇识别的跨语言词嵌入表示,并在 15 种不同方向的语言对(包括资源丰富和低资源语言)的两个数据集上进行了广泛的实验,结果表明该方法优于现有模型。
- ACL重温上下文窗口:用于跨语言词嵌入的方法
本研究系统评估了使用不同上下文窗口大小训练的跨语言词嵌入在多种语言、领域和任务中的性能,并发现增加源和目标词窗口大小可以提高双语词汇归纳的性能,尤其是对于频繁的名词。
- 来自平行句子的稳健跨语言嵌入
提出一种基于双语 CBOW 方法的联合学习方法,通过利用句子对齐语料库获得强健的跨语言词和句子表示,显著提高了跨语言句子检索性能,并在维持单词翻译方面与最先进的方法并驾齐驱,同时在零 - shot 跨语言文档分类任务方面达到深度 RNN 方 - EMNLP跨语言词嵌入的交互式优化
CLIME 是一个交互式系统,用于对具有分类问题的跨语言单词嵌入进行快速精化,使之能够适应低资源语言。通过对四种低资源语言进行健康相关文本识别,使用 CLIME 可以捕获更微妙的单词语义,并具有更高的测试准确性,而且 CLIME 经常比主动 - ACL跨语言嵌入是否应以英语为主?
通过研究跨语言词嵌入,本文关注了跨语言词典诱导及其评价指标,并发现了 Anglocentric 实验的局限性,同时提供了适用于所有语言的强大跨语言嵌入的指导方针。
- EMNLP中文 SQL 语义解析的试点研究
构建了一个针对汉语的跨领域 SQL 语义解析数据集,研究使用基于字符和基于词汇的编码器以及不同的嵌入方案来进行语义解析,结果表明基于词汇的语义解析器容易出现分词错误,并且跨语言的词嵌入对于文本到 SQL 有用。
- EMNLP评估迷雾:双语词典归纳的误导性基准
研究跨语言词嵌入的双语词典归纳的任务,发现现有数据集存在的困扰性问题:(1)数据中有 1/4 的专有名词,难以反映 BDI 表现,(2)黄金标准数据存在普遍间隔,对个体语言之间交叉嵌入系统排名和性能差异的总体度的影响,提出未来的研究要么避免 - 无监督和半监督跨语言词嵌入学习的鲁棒性研究
本文通过大量的评估,分析了多种跨语言嵌入模型的优劣,特别是在目标语言,训练语料库和监督程度等不同方面的限制,从而对 “高质量跨语言嵌入模型可以在不需要太多监督的情况下学习到” 的观点提出了质疑。
- ACL分析跨语言词嵌入映射的限制
本研究探讨了跨语言词嵌入的离线和联合学习方法,并发现在并行语料库下,联合学习可以更准确地解决不同语言间的相似性问题,尤其在双语词典诱导方面表现更优。因此,建议在跨语言嵌入研究中加强联合学习的研究。