- SIGIR多粒度对抗攻击黑盒神经排序模型
利用多粒度干扰生成高质量对抗性实例,通过转换为顺序决策过程实现由强化学习进行多粒度对抗攻击,两个代理共同寻找并组织干扰候选项以达到攻击目标,实验证明了该方法在攻击效果和感知隐蔽性方面优于现有基线。
- AAAI神经排序模型的扰动不变对抗训练:改进有效性 - 鲁棒性权衡
使用对抗性例子的神经排序模型(NRMs)在信息检索(IR)中取得了巨大的成功,但是可以通过添加不可察觉的扰动来操纵它们的预测结果。本研究通过将对抗性例子融入训练数据,建立了关于 NRMs 中效果和鲁棒性的权衡的理论保证,并设计了一种新的具有 - 针对密集检索模型的黑盒对抗攻击:一种多视图对比学习方法
针对密集检索模型的鲁棒性,我们提出了对抗性检索攻击(AREA)任务,并借鉴对神经排名模型的攻击方法,通过在多视图表示空间中鼓励每个视图表示与目标文档以及对应的查看者之间的一致性,以小的不可察觉的文本干扰显著提高攻击效果。
- 文本检索中对抗性排序攻击的防御:通过检测进行基准和基线
建立了一个基准数据集,针对神经排序模型的对抗文档进行了两类检测任务的研究,并对多个检测基线的性能进行了综合调查,实验结果表明,使用监督分类器可以有效缓解已知攻击,但对于未知攻击效果很差。此外,这样的分类器应避免使用查询文本以防止学习相关性分 - ACL针对神经排序模型的几乎不可察觉的文档篡改
本研究提出了一种名为 Imperceptible DocumEnt Manipulation (IDEM) 的框架,该框架可以生成对算法和人类来说更难察觉的对抗性文档,并通过在不引入易于检测错误的情况下指导已建立的生成语言模型(例如 BAR - 通过最优传输压缩提升低资源语言的跨语言信息检索
本文提出了 OPTICAL:优化传输蒸馏用于低资源跨语种信息检索,该方法利用优化传输问题将知识从双语数据中分离出来,只需要少量数据就可以在低资源语种上显著提高效果。
- 建立跨语言密集检索模型的迁移学习方法
本文介绍了 ColBERT-X,这是一个使用 XLM-RoBERTa 编码器的多重表示稠密检索模型,用于支持跨语言信息检索(CLIR)。在几种语言的自适应文件排名任务上表现出了在传统词汇 CLIR 基线之上的显着和统计上的显着改进。
- 神经排名模型的鲁棒性如何?
本文就神经排序模型的鲁棒性进行了全面研究,提出了三种不同定义下的 5 种鲁棒性任务,并在相关基准数据集上进行了实验验证,结果表明神经排序模型在多数情况下不如传统排序模型鲁棒,但在少数任务中仍然具有优势。
- 你的深度有多深:DL-HARD 注释深度学习数据集
介绍了一个名为 DL-HARD 的数据集,它通过对 TREC Deep Learning (DL) 主题进行广泛注释,从而更有效地评估神经排序模型,包括问题意图分类、答案类型、话题类别、来自商业网络搜索引擎的实体以及结果类型元数据等,同时还 - EMNLP切片感知神经排名
本文介绍了针对 IR 任务,如何通过错误分析来提高神经排序模型的效果。针对难以处理的实例,我们使用基于切片的学习来提高模型的效果,实验表明这种方法能够提高神经排名模型的效率 2% 左右。
- COVID-19 开放研究数据集的神经排序模型和关键字搜索基础设施
介绍了 Covidex 搜索引擎的使用,该搜索引擎利用最新的神经排名模型提供 COVID-19 Open Research Dataset 的信息访问,并针对全球大流行病开发了技术的三个组成部分,其中包括成熟的融合方法和可独立应用的神经排名 - 信息检索的课程学习策略:一个基于对话响应排序的实证研究
本文探讨了在神经检索模型训练中,如何通过对训练数据进行智能排序(即通过实行课程学习)来提高检索效率。作者利用大规模数据和会话响应排序任务,研究了如何确定难度以及如何过渡到更难的实例,取得了 2%的性能改进。
- 一种公理化正则化神经排序模型的方法
本文探讨多个领域的 Axiom 同时用于训练神经网络排序模型,该方法在信息检索的相关性评估中表现出更快的收敛速度和更好的泛化性能。
- AAAI多角度匹配的分层卷积神经网络在社交媒体搜索中的应用
该论文描述了一种新型的神经检索模型 ——MP-HCNN,它是专门设计用于排名社交媒体短文本且具备区别于传统网页和新闻文档的特征,使用分层卷积层来学习语义匹配,混合了多种类型的匹配证据来衡量相似度,并且实验证明这种模型在 TREC 微博轨迹 - 信息检索的神经模型
本文介绍了神经信息检索模型以及基础概念和直觉,包括传统的学习排序模型的学习技术和基于神经网路以原始文本学习语言表示的自然语言处理方法。同时,也简单介绍了浅层和深度的神经网络以及目前的深度神经网络检索模型,并探讨了神经信息检索未来的发展方向。