- RankMamba,在变形金刚时代评估 Mamba 的文档排名性能
通过在经典的 IR 任务 - 文档排序中考察 Mamba 的效果,我们发现 Mamba 模型在与具有相同训练方法的基于 Transformer 的模型相比具有有竞争力的性能,但与 flash attention 等高效的 Transform - 使用基于词汇表示法来衡量排序列表中的偏差
通过引入 TExFAIR 度量方法,该研究提供了一种新的评估框架,用于衡量文件排名中的性别偏见和公平性,通过基于术语的组表示来评估排名列表中性别偏见的公平性,与现有的评估方法 NFaiRR 有所不同。
- 通过解读脑信号进行查询扩充
利用从脑信号解码出的语义信息增强查询,Brain-Aug 生成原始查询的继续部分,通过排序导向的推理方法提高查询准确性,实验证明 Brain-Aug 使查询更准确,进而提高文档排序性能,对于歧义查询尤为显著。
- 从简单到困难:面向上下文的文档排名的双重课程学习框架
该研究提出一种基于课程学习框架的上下文感知文档排名方法,通过逐步调整模型,帮助模型逐渐接近全局最优解,并在两个实际查询日志数据集上取得显著的性能提升,证明了课程学习对于上下文感知的文档排名的有效性。
- BERT 排名器容易受损毁:使用对抗性文档扰动的研究
本文提出了基于梯度的算法,利用少量词语成功实现高相关或非相关文档的大幅度排名变化,同时发现 BERT-rankers 对文档的初始部分有很大的依赖性,并且在不同数据集中存在主题偏好,具有潜在的偏见。
- 基于对比学习的用户行为序列的上下文感知文档排名
本文介绍一种基于对比学习的用户搜索行为序列生成方法,包括三种数据增强策略,通过将用户行为序列与其他序列进行对比,生成更鲁棒的表示,在文档排名中应用,取得了比现有方法显著更好的效果,展现了该方法在上下文感知文档排名方面的有效性
- 通过语境化语言模型和分层推断进行自监督文档相似性排名
提出了一种自我监督方法 SDR,可以用于任意长度的文档相似度计算,评估结果显示,SDR 在所有指标上显著优于其它方法。
- EMNLP基于查询导向的稀疏 Transformer 的长文档排名
本文介绍了一种名为 QDS-Transformer 的算法,它在 Transformer 自注意力机制的基础上,设计了稀疏的查询导向注意力机制,以在文档排序任务中实现本地化背景、分层表示和查询定向的邻近匹配,同时还具有稀疏性和计算效率。实验 - 简洁 TinyBERT:文档检索的知识蒸馏
该研究比较了两种知识蒸馏模型在文档排序任务中的有效性并对 TinyBERT 模型进行了两种简化,结果显示出这些简化不仅能够提升 TinyBERT 的性能,而且还可以在提供 15 倍速度提升的同时显著优于 BERT-Base。
- AWS CORD-19 搜索:用于 COVID-19 文献的神经搜索引擎
提供 COVID-19 专用的神经网络搜索引擎 AWS CORD-19 Search (ACS),该引擎结合多种机器学习系统,如文档排名、问题回答和主题分类等能力,以自然语言为基础提供可靠的搜索结果。我们对该系统进行了数量和质量方面的验证, - SIGIR对长文本进行的本地自注意力机制以提高文档检索效率
本文提出了一种局部自注意力机制,用于解决检索过程中考虑前 n 个单词导致系统检索长文档时出现偏差的问题,并在 TREC 2019 深度学习排行榜任务上取得了显著的检索质量提升。
- 使用 TF-Ranking 中的 BERT 进行排序学习
该论文提出了一种利用 BERT 表示和 learning-to-rank 模型进行文档排序的机器学习算法。在公共基准测试中,采用这种方法可以取得更好的表现。最新的实验使用 RoBERTa 和 ELECTRA 模型,取得了较之其它方法更好的排 - 使用预训练的序列到序列模型进行文档排名
通过对预训练序列到序列模型进行新的调整,使其能够用于文档排名任务,相比较于 BERT 等仅采用编码器预训练变压器架构的基于分类的排名方法,我们的方法在实验中展现出了更好的性能,并发现我们的方法在数据较少的情况下更能胜任。
- 优化环境传递带宽安全探索
本文提出了一种名为 SEA 的新型学习方法,用于解决上下文乐观主义问题,它不会伤害用户体验,同时能够在探索空间中进行操作,从而有效地找到最佳策略。
- BERT 的多阶段文档排名
利用 BERT 模型,在多阶段排名结构中将文档排序问题分别转化为点和对分类的两个变量来解决,这是一种终端到终端的用于搜索的系统设计,可以通过控制每个管道阶段的候选人数量来权衡质量和延迟,并在 MS MARCO 和 TREC CAR 数据集上 - 基于片段的文档排序学习方法
本文研究使用文章中更多的信息以提高文档检索的效率, 作者设计了基于学习排名的文档检索方法,利用对查询的响应中生成的条目排名,其中一些方法量化文档的条目排名,另一些利用基于特征的条目表示法用于学习条目排名。实证评估证明了我们的方法在高效基线的 - SIGIR变质样本学习排名
本文提出了一种半监督的学生 - 教师模型 ——“fidelity-weighted learning”,通过模拟教师网络来根据标注品质的置信度调整每个样本在学生网络的参数更新中所占比重,从而在使用弱标注数据进行深度神经网络训练时取得比主流半 - 通过列表 - 条件变分自编码器进行排序优化
该研究提出了一种使用基于用户反馈的条件变分自编码器直接生成满足用户兴趣的完整产品列表的方法,相比于传统文档排名方法,该方法更有效地解决了页面布局和文档相互依赖性造成的偏差。
- SIGIR神经排序模型中的词汇和时间信号整合,用于搜索社交媒体流
本文中探索了一种利用递归神经网络来挖掘社交媒体中时间信号的替代方法,将已有的神经排序模型与双向 LSTM 层集成,以抓取相邻文档在时间上的时序连贯性,并且实验证明通过整合语义和时间信号可以显著提高排序的效果。
- 端到端神经信息检索排名与核池化
本文提出了一种基于核的神经模型 K-NRM,用于文档排序,它使用翻译矩阵来建模单词级别的相似性,采用新的核汇集技术来提取多级软匹配特征,并将这些特征组合成最终排名分数。经实验证明,K-NRM 模型在商业搜索引擎的查询日志上优于之前的基于特征