- 一种基于互信息的面向偏好的多样性模型用于电子商务搜索的再排序
本研究提出了基于互信息的偏好多样性模型(PODM-MI),通过采用多维高斯分布来捕捉用户对多样性的偏好,并最大化多样性偏好与候选项之间的互信息,以提高它们之间的相关性,适应性地进行排序,实现准确性和多样性之间的平衡。在实际的在线电子商务系统 - SIGIR基于大型语言模型的排序列表截断
我们从新的 “检索 - 然后重新排名” 的角度研究了排名列表截取(RLT),通过对检索列表进行截断(即修剪重新排名的候选项),我们优化了重新排名。我们通过复现现有的 RLT 方法来填补这个研究空白,特别是基于大型语言模型(LLM)的重新排名 - SIGIRPLAID 的可重复性研究
PLAID 算法与重新排名方法在检索引擎的效率和效果之间存在竞争性权衡,本研究强调在评估检索引擎效率时,需精心选择相关的基线方法。
- ACL生成基于计划的摘要重新排名所需的 EDU 摘录
本文介绍了一种新颖的方法来生成二次排序的待选摘要,方法通过提取唯一内容计划来生成不同的目标摘要,并通过基准解码方法对生成的摘要进行了重新排名,实验表明在典型单文档新闻文章语料库上,相比之前发布的方法,该方法在关键性能评估指标 ROUGE-2 - 受限元最优输运下的重排学习
本文提出了一种新的,快速,轻量级的用于预测公平随机重排序策略的方法:Constrained Meta-Optimal Transport (CoMOT) 及其在线采样方法 Gumbel-Matching Sampling (GumMS),通 - SIGIR可学习的基于支柱的图像 - 文本重排序
本文提出了一种新的可学习的基于框架的重新排序范式,该范式可以捕捉图片和文本之间的邻居关系,提高单模态检索任务的性能。实验结果表明,该范例具有很好的鲁棒性和推广性能力,并且可以在不同的基础模型上取得很好的效果。
- PIER: 电子商务中基于兴趣的置换级端到端重新排序框架
本研究提出了名为 PIER 的新型端到端重新排序框架,采用两个主要模块 FPSM 和 OCPM,分别基于 SimHash 和全向注意机制提高重新排名效果,实验证明其在公共和工业数据集上均优于基线模型,已成功部署在美团外卖平台。
- COLING基于行列式点过程的多答案检索
本文提出一种基于排列点过程和 BERT 的重新排序方法,综合考虑询问 - 段落相关性和段落 - 段落相关性,从而检索既与查询相关又具备多样性答案的段落。结果表明,我们的方法在 AmbigQA 数据集上优于现有技术。
- SIGIR复杂 NLP 在文本排名中的作用
研究发现,通过改变输入的顺序和位置信息,掩码语言模型的性能并不会受到影响;相比于句法方面,跨句子关注和更丰富的嵌入捕捉上下文的词义是 BERT 的优势所在。
- ACLED2LM: 用于更快文档重新排序推理的 Encoder-Decoder 到语言模型
提出使用预训练的 encoder-decoder 模型,通过 document to query generation 来进行重新排名,同时在推理时,将其分解为仅有 decoder 的语言模型以提高推理速度,实验结果表明该方法可以比传统的交 - EMNLP利用零样本问题生成技术提升段落检索效果
本文提出一种简单有效的重新排序方法,利用预训练语言模型计算与检索的段落之间的关联度,从而提高开放式问题回答中的检索效果,并在多个数据集上进行了评估和实验,使得无监督和有监督的模型的检索准确率分别提高了 6-18% 和 12%。
- ACL检测、消岐、重新排序:自回归实体链接作为多任务问题
提出了一种采用两个辅助任务进行训练,学习在推断时重新排列生成样本的自回归实体链接模型。实验表明,在医学和新闻领域的两个基准数据集上,该模型在不使用知识库或候选集的情况下创造了新的最高成果,并表明辅助任务对提高性能很关键。
- WWWPEAR: 为推荐定制的上下文化 Transformer 重排序
该论文提出了一个基于上下文化 transformer 的个性化再排序模型(PEAR),它不仅捕捉特征级和项目级交互,而且从初始排名列表和历史点击项目列表中模拟项目上下文,其实验结果证明了与以前的重新排名模型相比,PEAR 具有优越的效果。
- ACLSummaReranker:一个多任务专家混合再排序框架用于抽象摘要
该研究使用深度学习模型进行文本自动摘要,通过重新排序生成的摘要,显著提高了 ROUGE 1 得分。
- 建立 TripClick 健康检索的强基准
本研究基于 Transformer 的修改方法和负样本抽样策略在 TripClick 健康信息检索集合中取得较大的提升,同时使用领域特定的预训练模型,将稠密检索与 BM25 进行比较,发现即使使用简单的训练过程,稠密检索也能显著优于 BM2 - EMNLPCOVID-19 和其他新兴领域的开放领域问答
为了解决 COVID-19 疫情期间虚假信息泛滥的问题,本文利用开放域问答技术,构建了一个能够从大规模 COVID-19 科学论文中检索答案的系统,并结合有效的重新排序和多次回答技巧。实验表明,尽管数据量较小,该系统仍然可用于训练,成为用于 - BEIR: 一个用于零样本评估信息检索模型的异构基准
BEIR(Benchmarking-IR)是一个针对信息检索的鲁棒性和异质性评估基准,通过对 18 个公开数据集的评估,发现 BM25 是一个强大的基线,而后期交互和重新排名模型通常可以实现最佳零 - shot 表现,但计算代价高,与此相反 - 理解图神经网络视角下的图像检索再排序
本文提出了一种高并行性图神经网络的再排序方法,将传统的再排序过程分为检索高质量图库样本和更新特征两个阶段,并在实验中验证了该方法的实时处理能力和检索效果。
- 大规模地标检索的两阶段鉴别重排
本文提出了一种通过两阶段鉴别性重新排列解决数据集多样性问题的大规模地标图像检索的有效流程,该方法基于使用余弦 softmax 损失训练的卷积神经网络嵌入特征空间中的图像,通过 $k$ 最近邻搜索和软投票对检索结果进行排序,然后通过从未通过图 - 基于二进制代码的大规模 Top-N 推荐候选生成
本文介绍了一个称之为 CIGAR 的候选生成和重排序框架,此框架可以生成更高质量的候选集并使用实数值排序模型进行重排序,提高了推荐系统中 Top-N 模型的准确性和速度。