通过注入对抗性段落污染检索语料库

EMNLPOct, 2023

通过注入对抗性段落污染检索语料库

Poisoning Retrieval Corpora by Injecting Adversarial Passages

Zexuan Zhong, Ziqing Huang, Alexander Wettig, Danqi Chen

TL;DR在这份研究中，我们提出了一种新的攻击方法，通过扰乱离散标记以最大限度地与提供的一组训练查询相似，从而为密集检索系统生成少量的对抗性段落。当这些对抗性段落插入到大规模的检索语料库中时，我们证明这种攻击在欺骗这些系统在攻击者未见过的查询中进行检索方面非常有效。更令人惊讶的是，这些对抗性段落可以直接推广到领域外的查询和语料库，并且具有很高的攻击成功率。我们还对一系列最先进的密集检索器进行了基准测试和比较，无论是无监督的还是有监督的，虽然不同的系统表现出不同程度的易攻击性，但我们展示了它们都可以成功攻击，而只需插入最多 500 个段落，与数百万个段落的检索语料库相比，这只是一个小部分。

Abstract

dense retrievers have achieved state-of-the-art performance in various information retrieval tasks, but to what extent can they be safely deployed in real-world applications? In this work, we propose a novel attack

dense retrievers adversarial passages attack retrieval systems generalization

发现论文，激发创造

对密集通道检索器的后门攻击以传播虚假信息

通过语法错误在密集文段检索中引发危险的后门攻击，通过我们的方法，当用户查询无误时，我们的模型始终可靠地检索准确的信息，同时有效地过滤掉误导性信息。然而，当查询存在语法错误时，我们的系统显著提高了获取目标内容的成功率。

Feb, 2024

用于开放式领域问答的密集式检索

本研究展示了如何使用密集向量表示实现开放领域的问答，通过一个简单的双编码框架，通过从一小部分问题和段落中学习嵌入来实现检索，并在多个开放域 QA 基准测试中超越了传统的基于 TF-IDF 或 BM25 的方法，为终端 QA 系统的最新性能奠定了基础。

Apr, 2020

开放领域问答中对抗注入攻击的防御

本研究提出了一种新的方法 —— 查询增强方法，结合一种新的置信度方法 CAR 来寻找多个可以回答原始问题的检索段落，并将它们整合到模型中，以对抗数据污染并提高 5%-20% 精确匹配度。

Dec, 2022

控制令牌与密集段落检索

本研究解决了大型语言模型 (LLMs) 中的幻觉问题。我们采用了检索增强生成 (Retrieval-Augmented Generation, RAG) 技术，通过在提示信息中嵌入相关信息来获得准确答案。然而，RAG 在检索正确信息方面也面临固有问题。为了解决这个问题，我们采用了密集路径检索 (Dense Passage Retrieval, DPR) 模型，用于获取与用户查询相关的领域专业文档。尽管如此，DPR 模型在文档检索方面仍然精度不足。我们通过引入控制符号来增强 DPR 模型，取得了显著优异的性能，Top-1 准确率提高了 13%，Top-20 准确率提高了 4%。

May, 2024

稠密通道检索器的复制研究

本研究对 Karpukhin 等人于 2020 年提出的基于稠密编码的全域问答模型（DPR）进行了复制研究，其中发现原作者低估了 BM25 基准检索的有效性。我们通过改进的答案跨度评分技术，使用与原论文相同的模型获得更好的端到端问题答案准确性。

Apr, 2021

短语检索也学会了段落检索

通过研究密集短语检索系统，探讨短语检索是否可以作为粗粒度检索（如段落和文档）的基础，并提出了短语过滤和矢量量化等方法，可以将检索索引的大小减小至原来的 4-10 倍，从而使得密集短语检索成为多粒度检索的实用解决方案。

Sep, 2021

密集检索：我们应该使用什么检索粒度？

密集检索是一种获取相关背景或世界知识的开放领域自然语言处理任务的显著方法，检索单元的选择显著影响检索和下游任务的性能，与传统的段落或句子方法相比，基于命题的检索在密集检索中明显优于传统的检索方法，并通过提供与问题相关的信息来改进下游问答任务的性能。

Dec, 2023

条件对抗正则化自编码器对文本数据集的毒性攻击

本文研究证明自然语言推理和文本分类系统中的致命性漏洞，并提出了 “后门毒化” 攻击的方法，该攻击利用条件对抗正则化自编码器（CARA）在潜在空间中注入毒素来生成毒化训练样本并导致系统面临严重的安全风险。

Oct, 2020

面向开放域段落检索的句子感知对比学习

本文提出改进内部表示粒度，引入基于上下文句子的模型和 in-passage 负采样策略，以缓解不合适的建模方式对于对话的影响，在三个基准数据集上进行实验并验证方法的有效性，特别是在冲突严重的数据集中的表现。

Oct, 2021

深度检索与无法回答的反事实情况再探讨

本文介绍了一个新颖的检索方法 PiCL，它利用反事实样本来训练检索器以提高检索准确率，并在开放域问答基准测试中证明了其有效性和鲁棒性。

Apr, 2023