- 哪个国家是这个?街景照片的自动国家排名
通过使用计算机视觉、机器学习和文本检索方法的组合,此论文展示了 Country Guesser,一种实时系统,可以猜测一张照片所拍摄的国家。有趣的是,使用基于文本的特征来调查大型预训练语言模型可以提供模态交叉监督,此前尚未有利用视觉和文本特 - 基于 RAG 的金融文件问答模型检索性能改进
通过改进文本检索过程,本文探讨了 RAG 管道的现有限制并引入了提升文本检索的方法,包括先进的文本切块技术、查询扩展、元数据注释的应用、重新排序算法以及嵌入算法的微调。通过实施这些方法可以大幅提高检索质量,从而提升 LLM 在处理和响应查询 - 多模式检索增强生成式常识推理
提出了一种新颖的多模式检索 (MORE) 增强框架,利用文本和图像来增强语言模型的常识能力。在 Common-Gen 任务上的大量实验表明,MORE 基于单一和多模态的预训练模型具有较高的效果。
- EMNLP预测化学结合文本检索
本文研究了在化学领域中使用自然语言描述来增强预测模型。使用文献手动提取的大量结构化数据来训练化学信息模型是传统的方法。本文引入了一种新的方法 TextReact,该方法直接利用从文献中检索到的文本增强预测化学。TextReact 检索与给定 - 实现具有渐进学习的鲁棒文本检索
本文提出了一种用于强化文本检索的逐步学习嵌入模型 (PEG),通过增加负样本数量、提取难例负样本以及引入逐步学习机制,PEG 在检索真正的正例方面超过了现有的嵌入模型,在大语言模型的应用中具有重要潜力。
- 语言模型的策略梯度训练方法用于排名
通过利用大规模预训练语言模型,我们引入了一种名为 Neural PG-RANK 的新型训练算法,该算法通过实例化一个语言模型为 Plackett-Luce 排序策略,为检索模型的端到端训练提供了一种合理的方法,并有效地将训练目标与下游决策质 - 引文作为查询:使用语言模型作为重新排序器进行来源归属
本文研究了定位文本写作所使用的源头的新方法,对多种语言模型进行微调以重新排列候选源。
- 非临床文本信息检索在癌症相关论坛帖子的高效标注
本研究使用分布式计算,文本检索,聚类和分类方法,构建了一个完全功能的原型系统,可以从非临床和免费的在线信息中澄清癌症患者轨迹。聚类结果表明,邻域半径对聚类性能影响最大。达恩麻省理工学院模型可以在 46.1 秒内对 50000 个论坛帖子进行 - AugTriever:可扩展的数据增强无监督密集检索
本文提出了无需注释的可扩展伪查询文档对训练方法,包括查询提取和转化查询生成两种。通过使用这些方法,研究展示出比其他方法更好的检索表现。
- 基于预训练语言模型的密集文本检索:一项调查研究
本文介绍了近期基于 PLMs 的 dense retrieval 的相关研究进展,从架构、训练、索引、集成四个方面总结了主流技术,并提供了网站和代码库等丰富资源以支持读者的研究工作。
- 上下文生成检索
提出了一种上下文生成检索模型,其在生成式检索模型的解码步骤中使用上下文嵌入,结合了双编码器方法和生成式检索模型的优点,显示出比只有普通嵌入的情况更高的性能。
- HLATR:混合列表感知的 Transformer 重排序加强多阶段文本检索
本文提出 HLATR 作为一个轻量级的后续 reranking 模块,将检索和 reranking 阶段的特征结合起来,可以有效提高现有的多阶段文本检索方法的排名性能。
- EMNLPCondenser: 用于密集检索的预训练模型架构
该论文提出了一种基于 Condenser 的 Transformer 架构,可以提高标准 LM 在文本检索和相似性任务上的效果。
- 多阶段检索管道中 BERT 重新排序器的训练思考
本文提出了一种名为局部对比估计的方法,用于训练基于深度先前训练的语言模型的重排器,以实现更好的文本检索性能,实验证明本方法显著优于现有的基于深度两阶段模型。
- SparTerm:学习基于词项的稀疏表示以实现快速文本检索
本文提出了一种名为 SparTerm 的框架,旨在将预训练语言模型的深度知识转移至基于词袋法的稀疏表示,以提高其语义级匹配的表达能力,同时保持其效率、可解释性和准确性,并在 MSMARCO 数据集上获得了 state of the art - 密集文本检索的近似最近邻负对比学习
本文提出了一种新型的训练机制 --- ANCE (Approximate nearest neighbor Negative Contrastive Estimation), 它使用了一个近似最近邻索引来构建负面示例,以更好地解决稠密检索中 - AAAI交互式系统的全语料端到端探索
探究利用 CE3 方法结合全文语料库压缩降维表示和线性函数检索提升动态搜索智能代理的文本检索效果。
- ICCVLEWIS: 单词图像的潜在嵌入及其语义
本文提出一种使用卷积神经网络和加权排名损失函数的方法,从单词图像中直接预测语义概念,实现文本识别和检索中的语义关联,实验证明该方法的正确性和高度准确性。
- 基于词汇分类法的文本相关性
本文提出了一种基于词库的、测量文本语义相似性的新方法,称为 Omiotis,它利用了单词之间的语义相关性,将其扩展到文本之间的相关性测量,并在句子相似性和释义识别任务中进行了实验验证,结果显示该方法在选定任务及数据集上表现优异,且与基于语料 - ACL利用 WordNet 同义词集索引可以提高文本检索效果
使用 WordNet synsets 作为索引空间可以提高文本检索的结果,如果查询未消歧时,索引同义词集的表现只能与标准词索引相当。