提出一个针对跨语言信息检索的全面无监督框架,通过基于单语语料库构建共享的跨语言词嵌入空间,利用来自对抗神经网络的迭代过程实现无需双语数据的检索,实验验证了该方法的有效性,并通过无监督集成 CLIR 模型提升性能。
May, 2018
通过系统实证分析,我们发现预训练的最新型多语言编码器并不能显著超越早期基于跨语言单词嵌入的模型在无监督文档级和句子级交叉语言信息检索方面的性能,但在经过监督学习优化的条件下,可在句子检索中取得最高准确率,并通过局部相关性匹配和对特定领域对比微调等方法最大程度提升排名质量,还揭示了基于单语数据训练的检索模型会出现 “单语过度拟合” 的现象,这与针对特定目标语言的单语信息检索的交叉语言转移存在显著差异。
Dec, 2021
本研究探讨了采用神经网络翻译和预训练多语言神经语言模型是否能提升多语言信息检索 (MLIR) 技术。结果表明,使用预训练的 XLM-R 多语言语言模型以其母语进行索引,可以在索引时间大大缩短的情况下取得与神经翻译相结合的最佳效果。
Sep, 2022
该研究旨在提供一种用于跨语言检索模型的组织框架,并在 TREC 2022 NeuCLIR 中的三种语言测试集上实现基于此的可重复现的基准线。
Apr, 2023
本论文提出了一种跨语言词嵌入学习框架,其综合利用相关高资源语言,以解决低资源语言跨语言表示学习中的几何结构相似度不足的问题,并通过双语词表感应和特征值相似性等多个语言对的实验验证,在新颖性和性能上均有所提升。
Mar, 2022
使用 BERT 模型在多语言语料中训练跨语言信息检索模型,实验结果显示该模型在英语查询与立陶宛语文档的信息检索任务中优于其他竞争模型
Apr, 2020
本文提出一种神经实体链接模型,通过多种角度训练查询和候选文档之间的细粒度相似性和不相似性,并结合卷积和张量网络,在多语言语境下实现跨语言实体链接,并证明该英文训练的系统可以通过使用多语言嵌入进行零 - shot 学习。该提议系统在英语以及跨语言测试中取得 state-of-the-art 的结果 (例如:西班牙语和汉语 TAC 的 2015 数据集)。
Dec, 2017
本文提出了一种新颖的方法,在从双语词典中获取跨语言信号的基础上,通过利用上下文语境嵌入实现词义级别上的对齐,进而在多种语言之间预训练跨语言模型,以在诸如命名实体识别、情感分类等任务中获得表现上的突破。
Mar, 2021
通过利用跨语种检索增强的上下文学习(CREA-ICL)方法,从高资源语言中提取语义相似的提示,以改善多语言预训练语言模型(MPLMs)在各种任务中的零样本性能,本文研究了大型语言模型在低资源语言中上下文学习(ICL)性能的限制和挑战,并对检索增强的上下文学习在分类和生成任务中的性能动态提供了洞见。
Nov, 2023
本文提出了一种使用深度双语查询 - 文档表示来提高低资源跨语言文档检索性能的方法,并通过包括查询似然得分等额外特征,有效学习使用少量相关性标签为低资源语言对重新排序检索到的文档的模型。实验结果表明,本模型在 MATERIAL 数据集上优于竞争的基于翻译的对英斯瓦希里语、英语 - 塔加洛语和英语 - 索马里语跨语言信息检索任务的基线模型。
Jun, 2019