MICO: 基于相互信息协同训练的有选择性搜索

Sep, 2022

MICO: 基于相互信息协同训练的有选择性搜索

MICO: Selective Search with Mutual Information Co-training

Zhanyu Wang, Xiao Zhang, Hyokun Yun, Choon Hui Teo, Trishul Chilimbi

TL;DR本论文提出了 MICO 互信息协同训练框架，使用搜索日志进行有监督的选择性搜索，可将文档聚类，并将未知的查询路由到相关群集以进行有效检索。在多种指标上，MICO 显著提高了选择性搜索的性能，并胜过了一些现有的竞争基线。

Abstract

In contrast to traditional exhaustive search, selective search first clusters documents into several groups before all the documents are searched exhaustively by a query, to limit the search executed within one group or only a few groups. →

selective search query clustering mutual information co-training search logs efficient retrieval

发现论文，激发创造

在检索相关文档的分析上，解决不平衡分类问题的方法比较

研究比较了基于关键词列表、查询扩展技术、基于主题模型的分类规则以及主动有监督学习四种不同的检索方法，结果表明：基于关键词列表的检索方法容易出现偏见，而主动有监督学习方法在使用合适数量的已标记训练实例时，能够显著提高检索效果。

May, 2022

复杂问答：无监督学习方法和实验

本研究探讨了一种基于多篇文献的主题导向信息压缩技术，采用实证方法和两种无监督机器学习技术，比较它们的效果，同时通过提取不同的词汇特征和局部搜索技术，学习各种特征的权重值，最终实现了基于查询的自动摘要产生。

Jan, 2014

语料库结构、语言模型和即席信息检索

本文提出了一种基于语言模型的信息检索算法框架的新方法，并将类似文档群的信息整合进去以提高检索效果；实验结果表明，即使是此新方法中的较简单算法也能优于标准语言模型方法，并且我们的新插值算法在所有测试语料库中均能显著提高精度和召回率表现。

May, 2004

一种具有潜在聚类的比较 - 聚合模型用于答案选取

本文介绍了一种新的句子级别的答案选择方法，采用预训练语言模型计算输入文本的向量表示，并应用大规模语料库的迁移学习。通过引入潜在聚类方法和从 listwise 到 pointwise 的目标函数，提高了比较 - 聚合模型的性能。实验结果表明，该方法在 WikiQA 和 TREC-QA 数据集上表现优于现有方法，达到了最新的表现水平。

May, 2019

对比学习和专家混合使得向量嵌入更精确

我们针对高度专业化的科学子领域中，传统方法不能很好地进行文本分类和矢量表示的问题，提出了使用共引作为相似度度量的专业数据集，并结合领域特定微调和专家混合的通用适应性方法，实现了在多个任务上具有高效性的通用 Transformer 网络，显著推进了科学文本分类指标的发展，并有望增强矢量数据库的搜索和编译。

Jan, 2024

增强图像检索：基于 CLIP 模型的照片搜索的全面研究

CLIP 模型是基于文本查询的图像检索的重要进展，通过在大规模数据集上进行训练获得显著的泛化能力，实现了图像和文本的跨模态理解，促进了自然语言理解和计算机视觉的无缝集成，为多媒体应用中的信息检索提供了强大的工具。

Jan, 2024

检索增强对比视觉 - 文本模型

本论文提出了 RECO 模型，该模型通过外部记忆检索获取精细化知识，应用于现有视觉文本模型中，并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。

Jun, 2023

Auto-MLM: 自监督多语言知识检索的改进对比学习

本文提出一种结合对比学习和自动编码器掩码语言模型的联合训练方法，用于自我监督多语言知识检索，通过生成新的标记表示来预测掩码标记，实验结果表明，在 8 种语言上，我们的提出的方法在 AliExpress 和 LAZADA 服务语料库和公开可用的语料库上都 consistently 超过了所有先前的 SOTA 方法。

Mar, 2022

TopicSifter：通过有针对性的主题建模交互式减少搜索空间

本文提出一种基于非负矩阵分解的 TopicSifter 可视化分析系统，以帮助用户针对具体目标进行大规模文档检索，包括使用相关反馈来调整目标和优化主题模型以获得最相关的结果。

Jul, 2019

科学论文大型单主题文献库的交互式蒸馏

利用机器学习技术构建针对科学文献的目标数据集工具，并通过主题建模进行文献综述，应用于机器学习领域。

Sep, 2023