AGRaME: 多向量嵌入的任意粒度排名

May, 2024

AGRaME: 多向量嵌入的任意粒度排名

AGRaME: Any-Granularity Ranking with Multi-Vector Embeddings

Revanth Gangi Reddy, Omar Attia, Yunyao Li, Heng Ji, Saloni Potdar

TL;DR使用多向量嵌入在不同细粒度级别上进行排名，并通过多细粒度对比损失进行训练，最终将命题级别排名应用于检索增强生成中的事后引文添加，超越了基于提示的引文生成的性能。

Abstract

Ranking is a fundamental and popular problem in search. However, existing ranking algorithms usually restrict the granularity of ranking to full passages or require a specific dense index for each desired level o

ranking algorithms granularity multi-vector embeddings contrastive loss proposition-level ranking

发现论文，激发创造

面向可扩展嵌入式检索的逐步优化的双粒度文档表示

通过生物粒度文档表示法、稀疏嵌入与压缩感知量化等技术，采用基于深度学习的文档表示和 ANN 搜索技术，设计 Progressive Optimization 框架，实现了大规模的 EB 检索，并在百万级和百亿级的数据集上分别实现了高达 +4.3% 到 +17.5% 的提高检出率，同时在一个搜索平台上实现了较大的回报、回忆和 CTR 这些度量方面的提升。

Jan, 2022

OMG：基于自然语言的车辆检索中观察多个粒度

提出了一种基于多粒度观察（OMG）的新框架，用于通过自然语言描述在监控视频中查询受追踪车辆，并以多粒度对视觉表示、文本表示和目标函数进行优化，实验结果表明，该方法比以往所有方法的表现都好，获得了第 9 名的好成绩。

Apr, 2022

混合粒度：优化用于检索增强生成的分块粒度

通过将来自不同参考数据源的信息整合在一起，我们提出了一种动态确定知识数据库最佳粒度的方法，并且在预测上游任务性能时表现良好。

Jun, 2024

对比学习和专家混合使得向量嵌入更精确

我们针对高度专业化的科学子领域中，传统方法不能很好地进行文本分类和矢量表示的问题，提出了使用共引作为相似度度量的专业数据集，并结合领域特定微调和专家混合的通用适应性方法，实现了在多个任务上具有高效性的通用 Transformer 网络，显著推进了科学文本分类指标的发展，并有望增强矢量数据库的搜索和编译。

Jan, 2024

缩小知识评估差距：多层次答案的开放领域问题回答

标准问答评估协议未考虑到答案的多粒度性质，与单一粒度的参考答案进行比较。本研究提出 GRANOLA QA 评估设置，用于多粒度答案的准确性和信息量评估。通过对现有数据集进行改进，建立了 GRANOLA-EQ 多粒度实体问题数据集，并在 GRANOLA-EQ 上评估了一系列解码方法，包括 DRAG 算法。实验证明，大型语言模型在标准解码下往往生成具体但错误答案，而 DRAG 算法在多粒度答案上平均提高了近 20 个百分点的准确性，对于罕见实体进一步提高。总体而言，这表明标准评估和解码方法可能严重低估了语言模型所包含的知识。

Jan, 2024

为推荐系统学习大词汇类别特征的多粒度量化嵌入

本论文旨在为大型 vocab 稀疏特征的推荐系统学习高度紧凑的嵌入。我们提出了不同可微的产品量化（DPQ）方法，并提出了一种多粒度量化嵌入（MGQE）技术，以更好地处理推荐系统中常见的幂律数据分布。实验结果表明，我们只需要使用原始模型大小的大约 20％，即可实现与原始模型大小相当或更好的性能。

Feb, 2020

WordRank: 通过强韧排序学习词向量

本文提出了一种基于排名问题的新框架 WordRank，即通过坚韧的排名损失函数有效地估计单词表示，并在单词类比和相似性基准测试中与现有技术进行了比较，结果表明我们的算法在大型语料库上与现有技术竞争力强，而在训练集有限（即稀疏和嘈杂）的情况下，其性能显著优于现有技术。

Jun, 2015

基于弱监督嵌入模型的开放式问答

本文提出一种基于向量特征表示的问题回答方法，使用弱监督资源训练，并结合了优化过的随机梯度下降和微调步骤，实现了在基于弱标注数据下，对知识库回答表现的显著提升。

Apr, 2014

一种具有潜在聚类的比较 - 聚合模型用于答案选取

本文介绍了一种新的句子级别的答案选择方法，采用预训练语言模型计算输入文本的向量表示，并应用大规模语料库的迁移学习。通过引入潜在聚类方法和从 listwise 到 pointwise 的目标函数，提高了比较 - 聚合模型的性能。实验结果表明，该方法在 WikiQA 和 TREC-QA 数据集上表现优于现有方法，达到了最新的表现水平。

May, 2019

使用细粒度名称打标法评估多标签分类中的词嵌入

提出了基于多标签分类的新的词嵌入评测方法，其任务为细粒度名称分类，能够直接针对嵌入进行评测，相较于现有的评测数据集，所使用的知识库更大、包含细粒度类别并允许直接评测而无需考虑句子上下文等混淆因素。

Jul, 2018