使用平滑学习进行跨语言文档检索

COLINGNov, 2020

使用平滑学习进行跨语言文档检索

Cross-Lingual Document Retrieval with Smooth Learning

Jiapeng Liu, Xiao Zhang, Dan Goldwasser, Xiao Wang

TL;DR本文提出了一种新的端到端鲁棒框架，该框架采用新的相关性度量方法（平滑余弦相似度）和新的损失函数（平滑序列搜索损失）来解决神经文档搜索模型的不稳定性问题，并在跨语言文档检索任务中取得了显着的性能提升。

Abstract

cross-lingual document search is an information retrieval task in which the queries' language differs from the documents' language. In this paper, we study the instability of neural document search models and pro

cross-lingual document search neural document search models relevance measure smooth cosine similarity smooth ordinal search loss

发现论文，激发创造

通过深层双语表示重新排名来改善低资源跨语言文档检索

本文提出了一种使用深度双语查询 - 文档表示来提高低资源跨语言文档检索性能的方法，并通过包括查询似然得分等额外特征，有效学习使用少量相关性标签为低资源语言对重新排序检索到的文档的模型。实验结果表明，本模型在 MATERIAL 数据集上优于竞争的基于翻译的对英斯瓦希里语、英语 - 塔加洛语和英语 - 索马里语跨语言信息检索任务的基线模型。

Jun, 2019

跨语言信息检索的简洁有效神经排序和重排序基线

该研究旨在提供一种用于跨语言检索模型的组织框架，并在 TREC 2022 NeuCLIR 中的三种语言测试集上实现基于此的可重复现的基准线。

Apr, 2023

多语言信息检索的神经网络方法

本研究探讨了采用神经网络翻译和预训练多语言神经语言模型是否能提升多语言信息检索 (MLIR) 技术。结果表明，使用预训练的 XLM-R 多语言语言模型以其母语进行索引，可以在索引时间大大缩短的情况下取得与神经翻译相结合的最佳效果。

Sep, 2022

使用潜在语义索引实现双语文档对齐

本文研究了如何在双语文档对齐任务中应用交叉语言传递矩阵，提取出文档的重要特征，通过将两种余弦相似度变量与 URL 相似度量的结合，可以达到高精度的 Web 页面对齐。

Jul, 2017

翻译中的损失：使用检索准则学习双语单词映射

本文提出了一种端到端的优化方法来解决跨语言对齐问题，实验表明该方法在单词翻译上的表现优于现有的最先进方法，尤其是对于英汉等远距离语言对齐效果更为显著。

Apr, 2018

单语数据的无监督跨语言信息检索

提出一个针对跨语言信息检索的全面无监督框架，通过基于单语语料库构建共享的跨语言词嵌入空间，利用来自对抗神经网络的迭代过程实现无需双语数据的检索，实验验证了该方法的有效性，并通过无监督集成 CLIR 模型提升性能。

May, 2018

神经跨语言实体链接

本文提出一种神经实体链接模型，通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性，并结合卷积和张量网络，在多语言语境下实现跨语言实体链接，并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如：西班牙语和汉语 TAC 的 2015 数据集)。

Dec, 2017

基于对比学习的语言无关多语种信息检索

通过利用平行语料库和非平行语料库，采用对比学习等方法，有效提高了预训练多语言语言模型的跨语言传递能力，同时显著提高了检索性能，且计算成本较低。

Oct, 2022

BERT 下的跨语言信息检索

使用 BERT 模型在多语言语料中训练跨语言信息检索模型，实验结果显示该模型在英语查询与立陶宛语文档的信息检索任务中优于其他竞争模型

Apr, 2020

多语言文本编码器在跨语言检索中的应用

通过系统实证分析，我们发现预训练的最新型多语言编码器并不能显著超越早期基于跨语言单词嵌入的模型在无监督文档级和句子级交叉语言信息检索方面的性能，但在经过监督学习优化的条件下，可在句子检索中取得最高准确率，并通过局部相关性匹配和对特定领域对比微调等方法最大程度提升排名质量，还揭示了基于单语数据训练的检索模型会出现 “单语过度拟合” 的现象，这与针对特定目标语言的单语信息检索的交叉语言转移存在显著差异。

Dec, 2021