- 自感知的知识检索:用于自适应检索强化生成的方法
介绍了一种自我感知知识检索模型(SeaKR),该模型从大规模语言模型(LLMs)的内部状态中提取自我感知的不确定性,通过检测 LLMs 生成时的高度不确定性来激活检索。为了有效地整合已检索的知识片段,SeaKR 根据 LLMs 的自我感知不 - 基于大型语言模型的多模态检索用于语音识别
提出 kNN-LM 和跨注意力技术两种方法的多模态检索,证明了其在语音识别任务上优于基于文本的检索方法,对多模态语言模型基准线具有最高水平的识别结果。
- DEGAP: 基于模板的事件论元提取模型的双事件导向自适应前缀与槽查询
DEGAP 提出了解决事件论元提取中的挑战的方法,通过引入对不同事件实例和模板学习信息的双重前缀以及基于目标事件引导前缀的自适应门控机制,该方法在四个数据集上达到了最新的最优性能。
- SIGIR大规模流式密集检索的格子衬衫
PLAID SHIRTTT 是 ColBERT 的扩展版本,使用预训练语言模型实现了高效的排名。通过多阶段的增量索引和层次分片,解决了 PLAID 在流式场景下性能下降的问题,并在不同规模和多语言环境下进行了有效性验证。
- 基于草图的图像检索的双模态提示
在本研究中,我们提出了一种双模态的提示 DP-CLIP 网络,通过采用自适应提示策略,以有效地适应新类别并捕捉每个目标类别内的独特鉴别线索,从而实现了在零样本和细粒度领域内的检索任务的创新。
- 利用知识图谱的检索增强生成模型用于客户服务问答
我们介绍了一种将 RAG 与知识图谱相结合的新型客户服务问答方法,通过保留内部问题结构和问题间关系,从历史问题中构建知识图谱用于检索,提高检索精度和解答质量。该方法在实证评估中显示,相对于基准模型,该方法在 MRR 上提升了 77.6%,在 - COLINGKazQAD: 哈萨克语开放域问答数据集
我们介绍了 KazQAD 这个哈萨克斯坦的开放域问题回答数据集,可用于阅读理解和完整的 ODQA 设置,以及信息检索实验。该数据集包含近 6,000 个独特问题、提取的简短答案和将近 12,000 个段落级相关性判断。我们使用机器翻译、维基 - Img2Loc: 通过多模态基础模型和基于图像检索增强的生成,重新审视图像地理定位
Img2Loc 是一个采用 GPT4V 或 LLaVA 等大型多模态模型进行检索增强生成的创新系统,通过重新定义图像地理定位作为文本生成任务,它不仅在 Im2GPS3k 和 YFCC4k 等基准数据集上超过了先前最先进的模型的性能,而且在没 - CFRet-DVQA:用于文档视觉问答的逐步细化检索和高效调整
通过检索和高效调整的方式,CFRet-DVQA 方法实现了文档视觉问答中的信息定位和答案生成,展示出与单页和多页文档相关领域的最先进或竞争性的结果。
- 学习与职位匹配的检索
应用学习检索技术改进 LinkedIn 的职位搜索和推荐系统,通过构建评估求职者资格的图和利用学习到的链接进行检索,提高应聘人员质量并优化求职者参与度。
- 探索基于程序提示的混合问答
我们提出了一种基于程序的提示框架 HProPro,用于处理混合问答任务,该框架通过整合各种功能来解决异构数据的混合推理场景,从而能够在没有训练专门的检索器或执行模态转换的情况下,对来自各种源和模态的数据进行推理。实验证明 HProPro 在 - 无分块上下文检索的语言模型基础
本文提出了一种新颖的无切块上下文(CFIC)检索方法,专门为检索增强生成(RAG)系统定制。CFIC 通过绕过传统的切块过程,利用文档的编码隐藏状态进行上下文检索,采用自回归解码准确识别用户查询所需的具体证据文本,消除了切块的需求。通过结合 - POP-3D:基于图像的开放词汇 3D 实占预测
我们描述了一种预测开放词汇的 3D 语义体素占用图的方法,该方法可实现对自由形式语言查询进行 3D 定位、分割和检索。我们设计了一种新的模型架构,包括 2D-3D 编码器、占用预测和 3D 语言头;开发了一种三模态自监督学习算法,利用图像、 - 基础模型嵌入的接口
我们介绍了 FIND,一个用于对齐基础模型嵌入的广义接口。该接口具有通用性,适用于涵盖检索、分割等各种任务,在相同的架构和权重下。通过原型化注意掩码和嵌入类型,不同的任务可以实施。该接口对新任务和新模型具有适应性。通过多任务多模态训练,该接 - VLM-Eval: 视频大型语言模型的通用评估
本文提出了一个统一的评估方法,包括字幕、问答、检索和行动识别等多个视频任务,展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现,同时也展示了一种简单的基准方法 Video-LLaVA,在评估视频 LLMs 时优于现有方法。此外,我 - ShapeMaker:无监督联合形状规范化、分割、检索和变形
通过自监督学习,本文提出了 ShapeMaker,一个统一的形状规范化、分割、检索和变形的框架,通过提取点级别的仿射不变特征来规范化对象,预测语义一致的部分分割和对应的中心,聚合特征进行形状检索,然后使用神经笼变形将目标物体与检索到的形状进 - REST: 基于检索的推测解码
通过检索式推断解码(REST),可以加速语言模型的生成,实验证明这种方法在代码或文本生成中可以实现 1.62 倍至 2.36 倍的显著加速。
- InstructRetro: 检索增强预训练后的指令调整
通过检索进行预先训练的大型语言模型在困惑度和事实准确性方面表现更好,但现有预先训练的检索增强语言模型的规模仍然受限,因此限制了指导调整和零样本泛化的效果。我们提出了 Retro 48B,这是在指导调整之前预先训练的最大语言模型,通过从 1. - 语言模型的物理学:第 3.2 部分,知识操作
本文研究了语言模型在推理过程中利用存储的知识的能力,发现预训练的语言模型在知识检索方面表现出色,但在简单的分类、比较和逆向搜索任务方面表现较差,即使在训练和推理过程中使用了控制思维链。研究的主要贡献是通过一个合成数据集的控制实验,证实了语言 - 使用大型语言模型匹配表格元数据与业务词汇
使用大型语言模型的方法,无需手动调整,能够匹配表格元数据和业务词汇,从而实现对结构化数据的检索和分析。