本文提出了一种使用深度双语查询 - 文档表示来提高低资源跨语言文档检索性能的方法,并通过包括查询似然得分等额外特征,有效学习使用少量相关性标签为低资源语言对重新排序检索到的文档的模型。实验结果表明,本模型在 MATERIAL 数据集上优于竞争的基于翻译的对英斯瓦希里语、英语 - 塔加洛语和英语 - 索马里语跨语言信息检索任务的基线模型。
Jun, 2019
该研究旨在提供一种用于跨语言检索模型的组织框架,并在 TREC 2022 NeuCLIR 中的三种语言测试集上实现基于此的可重复现的基准线。
Apr, 2023
本研究探讨了采用神经网络翻译和预训练多语言神经语言模型是否能提升多语言信息检索 (MLIR) 技术。结果表明,使用预训练的 XLM-R 多语言语言模型以其母语进行索引,可以在索引时间大大缩短的情况下取得与神经翻译相结合的最佳效果。
Sep, 2022
本文研究了如何在双语文档对齐任务中应用交叉语言传递矩阵,提取出文档的重要特征,通过将两种余弦相似度变量与 URL 相似度量的结合,可以达到高精度的 Web 页面对齐。
Jul, 2017
本文提出了一种端到端的优化方法来解决跨语言对齐问题,实验表明该方法在单词翻译上的表现优于现有的最先进方法,尤其是对于英汉等远距离语言对齐效果更为显著。
Apr, 2018
提出一个针对跨语言信息检索的全面无监督框架,通过基于单语语料库构建共享的跨语言词嵌入空间,利用来自对抗神经网络的迭代过程实现无需双语数据的检索,实验验证了该方法的有效性,并通过无监督集成 CLIR 模型提升性能。
May, 2018
本文提出一种神经实体链接模型,通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性,并结合卷积和张量网络,在多语言语境下实现跨语言实体链接,并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如:西班牙语和汉语 TAC 的 2015 数据集)。
Dec, 2017
通过利用平行语料库和非平行语料库,采用对比学习等方法,有效提高了预训练多语言语言模型的跨语言传递能力,同时显著提高了检索性能,且计算成本较低。
Oct, 2022
使用 BERT 模型在多语言语料中训练跨语言信息检索模型,实验结果显示该模型在英语查询与立陶宛语文档的信息检索任务中优于其他竞争模型
Apr, 2020
通过系统实证分析,我们发现预训练的最新型多语言编码器并不能显著超越早期基于跨语言单词嵌入的模型在无监督文档级和句子级交叉语言信息检索方面的性能,但在经过监督学习优化的条件下,可在句子检索中取得最高准确率,并通过局部相关性匹配和对特定领域对比微调等方法最大程度提升排名质量,还揭示了基于单语数据训练的检索模型会出现 “单语过度拟合” 的现象,这与针对特定目标语言的单语信息检索的交叉语言转移存在显著差异。
Dec, 2021