Dec, 2021

多语言文本编码器在跨语言检索中的应用

TL;DR通过系统实证分析,我们发现预训练的最新型多语言编码器并不能显著超越早期基于跨语言单词嵌入的模型在无监督文档级和句子级交叉语言信息检索方面的性能,但在经过监督学习优化的条件下,可在句子检索中取得最高准确率,并通过局部相关性匹配和对特定领域对比微调等方法最大程度提升排名质量,还揭示了基于单语数据训练的检索模型会出现“单语过度拟合”的现象,这与针对特定目标语言的单语信息检索的交叉语言转移存在显著差异。