- 可学习的后期交互的高效文档排序
提出了一种新颖的学习型后交互模型(LITE),通过解决轻量级评分器的手工设计和访问个体文档令牌嵌入的问题来改善查询 - 文档关联性在信息检索中的性能,并在领域内和零样本重排序任务上优于以前的后交互模型。
- CVPR组合对象关系和属性进行图像 - 文本匹配
本研究中,我们通过引入场景图表示图像标题,利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型,能高效地编码物体 - 属性和物体 - 物体的语义关系,通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检 - Translate-Distill:通过翻译和蒸馏学习跨语言稠密检索
该研究提出了一种名为 Translate-Distill 的方法,它利用交叉编码器或 CLIR 交叉编码器的知识蒸馏来训练双编码器 CLIR 学生模型。
- CoT-MoTE: 通过文本专家混合探索上下文掩码自编码器预训练以进行段落检索
该研究探讨了使用 Mixture-of-Textual-Experts 的 Contextual Masked Auto-Encoding 预训练模型进行 Passage retrieval 以提高检索效果。实验结果显示该方法可以更加平衡地 - 文本人物搜索的跨模态特征校准
本文提出一种基于文本的人物搜索的新颖有效方法,使用双编码器和分离的跨模态解码器架构,采用两种新的损失来提供细粒度的跨模态特征,并在 CUHK-PEDES,ICFG-PEDES 和 RSTPReID 等三个流行基准测试中创造了排名前三的成绩。
- 使用文本扩展的密集检索课程采样
本文提出了一种课程抽样策略来对原始的双编码器的不足进行改进,使得检索模型能够学习将注意力从文档扩展至文档和查询,从而获得高质量的查询知情文档表示,实验结果表明,我们的方法优于以前的密集检索方法。
- ECCV草图胜千言:带文本和草图的图像检索
本文介绍了一个基于文本及草图的图像检索模型,该模型称为 “TASK-former”,并采用了类似于 CLIP 的融合编码器的方法,众多实验表明,使用草图可以明显提高图像检索的召回率。
- ACL轻量级文本图像检索的两阶段模型压缩:更精简、更快速
本文提出了一种有效的两阶段框架,用于压缩大型预训练双编码器,以实现轻量级文本图片检索,其结果模型较小(原始的 39%),处理图像 / 文本的速度快(分别为 1.6x / 2.9x),在 Flickr30K 和 MSCOCO 基准测试中表现不 - 语音视觉对齐的快慢转换器
研究提出了一种基于 Transformer 的模型 FaST-VGS,将双编码器和交叉注意力结构统一到一个模型中,实现了查询速度和准确性的平衡,并在基准数据集上实现了最先进的语音 - 图像检索准确性,其学习到的表示在 ZeroSpeech - ICML使用带噪文本监督扩展视觉和视觉语言表示学习
本文利用包含超过 10 亿个图像备选文本对的嘈杂数据集,采用简单的双编码器体系结构通过对比损失,学习了图像和文本对的视觉和语言表示,显示出我们语料库的规模可以弥补其噪音,即使使用这样的简单学习方案也能实现最先进的表现,使跨模式搜索变得更加容 - ICML双编码器双向生成对抗网络用于异常检测
该研究提出了一种基于双编码器的双向 GAN 架构,通过学习机制,将循环一致性问题降至最小,有效地促进了基于 GAN 的模型中的异常检测效率。实验证明该方法在正常样本分布捕捉方面表现良好,并成功应用于大脑磁共振异常检测系统。
- 多语言通用句子编码器用于语义检索
本文介绍了两种基于 Transformer 和 CNN 模型架构的预训练多语言句子编码模型,并使用基于翻译的桥接任务学习绑定表示将 16 种语言的文本嵌入到单一的语义空间中,以提高检索效率,与最先进的语义检索、翻译检索和检索问题回答模型相竞 - IJCAI使用双向双编码器和加性边界 softmax 改进多语言句子嵌入
本研究提出了一种使用双向双编码器和加性边际 softmax 学习多语言句子嵌入的方法,能够在联合国 (UN) 平行语料库检索任务上取得最先进的结果,并使用检索到的语言对训练 NMT 模型。通过对我们的句子嵌入平均构建的简单文档级别嵌入进行实 - 多任务双编码器模型学习跨语言句子表示
探索了一种使用双编码器学习跨语言句子表示的自然环境,以克服多语言神经语言建模中标记化非英语数据的缺乏,并在许多单语、跨语言、零样本 / 少样本学习任务上对跨语言表示进行了全面评估,并分析了不同的跨语言嵌入空间。