MICO: 基于相互信息协同训练的有选择性搜索
研究比较了基于关键词列表、查询扩展技术、基于主题模型的分类规则以及主动有监督学习四种不同的检索方法,结果表明:基于关键词列表的检索方法容易出现偏见,而主动有监督学习方法在使用合适数量的已标记训练实例时,能够显著提高检索效果。
May, 2022
本研究探讨了一种基于多篇文献的主题导向信息压缩技术,采用实证方法和两种无监督机器学习技术,比较它们的效果,同时通过提取不同的词汇特征和局部搜索技术,学习各种特征的权重值,最终实现了基于查询的自动摘要产生。
Jan, 2014
本文提出了一种基于语言模型的信息检索算法框架的新方法,并将类似文档群的信息整合进去以提高检索效果;实验结果表明,即使是此新方法中的较简单算法也能优于标准语言模型方法,并且我们的新插值算法在所有测试语料库中均能显著提高精度和召回率表现。
May, 2004
本文介绍了一种新的句子级别的答案选择方法,采用预训练语言模型计算输入文本的向量表示,并应用大规模语料库的迁移学习。通过引入潜在聚类方法和从 listwise 到 pointwise 的目标函数,提高了比较 - 聚合模型的性能。实验结果表明,该方法在 WikiQA 和 TREC-QA 数据集上表现优于现有方法,达到了最新的表现水平。
May, 2019
我们针对高度专业化的科学子领域中,传统方法不能很好地进行文本分类和矢量表示的问题,提出了使用共引作为相似度度量的专业数据集,并结合领域特定微调和专家混合的通用适应性方法,实现了在多个任务上具有高效性的通用 Transformer 网络,显著推进了科学文本分类指标的发展,并有望增强矢量数据库的搜索和编译。
Jan, 2024
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
本论文提出了 RECO 模型,该模型通过外部记忆检索获取精细化知识,应用于现有视觉文本模型中,并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。
Jun, 2023
本文提出一种结合对比学习和自动编码器掩码语言模型的联合训练方法,用于自我监督多语言知识检索,通过生成新的标记表示来预测掩码标记,实验结果表明,在 8 种语言上,我们的提出的方法在 AliExpress 和 LAZADA 服务语料库和公开可用的语料库上都 consistently 超过了所有先前的 SOTA 方法。
Mar, 2022
本文提出一种基于非负矩阵分解的 TopicSifter 可视化分析系统,以帮助用户针对具体目标进行大规模文档检索,包括使用相关反馈来调整目标和优化主题模型以获得最相关的结果。
Jul, 2019