BriefGPT.xyz
大模型
Ask
alpha
关键词
multilingual retrieval
搜索结果 - 5
在仅使用英语进行调整查询编码器时保持多语言质量
密集通道检索系统可用作信息检索的初始阶段,为下游任务选择最相关的文本段落。本研究通过实验探讨了双编码器的查询部分在仅基于英文数据集进行调整时,多语言检索的质量会降低多少(假设目标领域或任务中跨语言样本稀缺)。具体而言,我们观察到,在高质量的
→
PDF
3 days ago
在多语言多层次检索中,利用 LLMs 合成训练数据
通过使用 SWIM-IR 合成训练数据集,我们研究了多语言密集检索模型的能力,并在三个检索基准上对其进行了全面评估,发现 SWIM-IR 可以以较低成本替代昂贵的人工标记检索训练数据。
PDF
8 months ago
ACL
评估信息检索嵌入式 API
通过对话题建模,本文分析了语义嵌入 API 在真实检索场景中的行为,如能力,成本及最佳实践等问题,为读者提供了适合其需要的合适的服务建议。
PDF
a year ago
ACL
通过人工混合数据训练来提升零样本跨语言检索
本研究探讨了如何将零 - shot 模型从高资源语言(一般是英语)迁移到其他语言,结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此,我们提出利用双语词典生成人工混合语言的数据来训练排名模型,我们对从跨语言词
→
PDF
a year ago
无监督上下文感知句子表示预训练在多语言密集检索中的应用
本文介绍了一种简单有效的单语言预训练任务 —— 对比上下文预测 (contrastive context prediction, CCP),通过学习建模句子级上下文关系来学习句子表示,从而使句子配对对齐,并使用语言特定的存储器库和非对称批标
→
PDF
2 years ago
Prev
Next