- C-CLIP:用于缩小描述性文字之间差距的对比图像 - 文本编码器
通过训练对比图像 - 文本编码器,利用明确的评论式对提高检索结果的准确性进行了大幅改进,并且这种改进可扩展至多种非英语语言。
- ICCV关注关键部分:选择性区域集中下的视觉文档理解
我们提出了一种新颖的端到端文档理解模型,称为 SeRum(选择性区域理解模型),用于从文档图像中提取有意义的信息,包括文档分析、检索和办公自动化。
- 知识 GPT: 通过检索和存取知识库增强大型语言模型
通过将大型语言模型与知识库相结合,KnowledGPT 能够更好地回答涉及世界知识的更广泛问题,利用广为人知的知识库和个性化知识库中的知识。
- 神经网络架构检索
提出了一种新的算法,用于检索与待设计神经结构相似的已存在的神经结构,并引入分层对比学习实现准确定义,它在人工设计和合成神经结构的评价中表现出卓越性能,并建立了包含 12000 个真实世界网络结构及其嵌入的数据集。
- KDD基于表达式相似性的数学问题检索器 MWPRanker
本文提出了一种用于检索类似数学单词问题(MWP)的混合方法,该方法参考将同样的操作序列用于解题,通过与语义相似性方法相比,展示了更好的效果。
- KDD重新审视加速器上的神经检索
通过使用混合逻辑 (MoL) 模型代替点积来准确表示复杂的用户 - 物品互动,结合 extit {h-indexer} 层级检索策略能够在单个 GPU 上扩展到 1 亿个语料库,并在公共数据集中取得了高达 77.3%的命中率提高。
- 点击反馈检索
本研究旨在通过用户点击喜欢和不喜欢的搜索结果提供反馈,以指导搜索过程,构建了新的基于时尚领域大规模数据集的点击反馈检索基准,证明了将点击反馈纳入训练可以显著提高检索质量。
- 大型语言模型是强零 - shot 召回器
该论文提出了一种简单的方法,使用大规模语言模型作为信息检索的检索器,从而在零 - shot 场景下提高检索效率。该方法通过在检索词和其他相关域内候选之间进行组合,来辅助语言模型生成更精确的答案,使得检索更加透明,从而实现竞争力更强的检索结果 - SIGIRCS-lol: 电子竞技直播场景观众评论数据集
本研究通过创建一个包含游戏场景和观众评论的大型数据集 CS-lol,来探索电竞直播中观众评论和场景的关系,提出了难度较高的观众评论检索任务,并在基线检索方法中取得了优异的成果。
- Visconde: 使用 GPT-3 和神经重排序的多文档问答
本文提出了一个名为 Visconde 的问答系统,利用 few-shot 大型语言模型和先进的搜索引擎检索多个文档中的支持证据用于回答问题,评估结果表明检索机制是主要的瓶颈,为了得到更好的回答表现,模型在回答问题前给出解释是有效的。
- 弱监督对比预训练的文本嵌入
本文提出了 E5 模型,通过对弱监督的大规模文本对数据集(CCPairs)的对比训练,得到一种最先进的文本嵌入模型,可用于检索、聚类和分类等任务,表现出色并具有迁移性。在 BEIR 和 MTEB 数据集上进行广泛评估,E5 在零样本和微调设 - 神经语言模型中近似短期记忆的特征化
该研究考察了语言模型在处理文本时是否能够检索先前出现的确切单词,并发现 transformers 模型可以从第一次出现的名词清单中提取词语的身份和排序,而 LSTM 模型则更加侧重于先前单词的语义要点,以及其与列表中其他单词的关系。
- COLING生成与检索:利用预测提高语义解析的检索效果
提供一种新的叫做 GandR 的语义解析模型,可提高在低资源语境下的解析准确度,该模型使用具有相似输出的样本作为依据,超越了现有语义解析技术。
- 面向任务导向对话的端到端检索生成
介绍了 AARGH,一个综合了检索和生成方法的端到端任务导向对话系统,旨在改善对话管理和输出的词汇多样性。在 MultiWOZ 数据集上,我们展示了该方法相对于最先进的基线方法可以产生更多样化的输出,同时维持或提高状态跟踪和上下文 - 响应 - 新颖程度对于半监督表征学习用于新类别检索的影响
本研究探讨使用半监督学习方法在训练集中加入未标记的新类图片,以提高表示学习在搜索新类别图片时的效率,并提出了一种新的评估方法来评估基于半监督学习方法的表示学习,在语义差异较大时,相比于传统监督学习,基于半监督学习的表示学习可以在搜索新类别图 - WWW深度推荐算法中的合作式检索与排序模型
深度推荐系统在现代 Web 服务中得到广泛应用,然而传统的两阶段工作流存在协作限制,因此需要探索检索员和排名员之间的有效协作。
- 文本检索的鲁棒性排序器
通过使用多个检索模型作为负样本生成器,引入大规模的噪声标签和多样性负样本进行训练,提出了一种鲁棒的排序模型 R^2anker,实验结果显示该模型表现优于现有工具。
- ACL开放域问答的两步问题检索
本文提出了一个两步骤的问题检索模型 SQuID,使用两种编码器进行问题检索,第一步检索器选择前 k 个类似的问题,第二步检索器从前 k 个问题中找到最相似的问题,实验证明 SQuID 显著提高了现有问题检索模型的性能,对推理速度的减少可以忽 - SIGIR检索增强机器学习
这篇论文提出了一种通用的增强检索的机器学习框架,可以将信息检索的核心原理应用和扩展到任务驱动的机器,从而实现模型的泛化、可扩展性、鲁棒性和可解释性的显著提高。
- ACLHybriDialogue: 一个基于表格和文本数据的信息查询对话数据集
本篇论文提出一个基于维基百科文本和表格的 HybriDialogue 数据集,通过将复杂的多跳问题分解为简单的、现实的多轮对话,创建了众包自然语言对话。针对该数据集,我们提出了检索、系统状态跟踪和对话响应生成任务,并进行了基线实验。实验结果