密集检索增强的少样本主题分类器框架

Dec, 2023

密集检索增强的少样本主题分类器框架

DRAFT: Dense Retrieval Augmented Few-shot Topic classifier Framework

Keonwoo Kim, Younggun Lee

TL;DR提出一种名为 DRAFT 的简单框架，用于训练少样本主题分类器，通过使用特定主题的少量示例作为查询构建自定义数据集，并应用多查询检索算法以构建自定义数据集，最后使用该数据集来微调分类器以识别主题。

Abstract

With the growing volume of diverse information, the demand for classifying arbitrary topics has become increasingly critical. To address this challenge, we introduce draft, a simple framework designed to train a classif

draft few-shot topic classification customized dataset multi-query retrieval classifier

发现论文，激发创造

重新思考稠密检索的少样本能力

本文提出 FewDR 数据集和统一评估基准，并消除了现有方法中出现的一些问题。经实证结果表明，当前最先进的 DR 模型仍然在标准 few-shot 场景中面临挑战。

Apr, 2023

Promptagator: 从 8 个示例实现少样本密集检索

本文提出了基于大语言模型的 Few-shot Dense Retrieval 任务中 Prompt-based Query Generation for Retriever (Promptagator) 方法，利用少量任务单独的知识生成具有任务特定的检索器并使用 LLM 促进扩展性，与传统基于自然问题或 MS MARCO 的训练方式相比，使用 8 个或更少的样本提示 LLM 生成的双编码器可以显著提高检索性能达 1.2 个 nDCG 以上。

Sep, 2022

少样本对话密集检索

本文提出了 ConvDR，一个用于多轮对话的稠密检索系统，它通过学习上下文化嵌入，仅使用嵌入点积来检索文档，并使用教师 - 学生框架赋予 ConvDR 少样本学习能力。在 TREC CAsT 和 OR-QuAC 上的实验表明，ConvDR 在少样本和完全监督的情况下表现优于之前的系统，并且比较高效。

May, 2021

只需要问题：密集式段落检索器训练

ART 是一种新的语料库自动编码方法，用于训练密集检索模型，通过未标注的输入和输出实现了高效的无监督学习，且在不需要标记数据和任务特定的损失的情况下，在多个 QA 检索基准测试中获得了最先进的结果。

Jun, 2022

AugTriever：可扩展的数据增强无监督密集检索

本文提出了无需注释的可扩展伪查询文档对训练方法，包括查询提取和转化查询生成两种。通过使用这些方法，研究展示出比其他方法更好的检索表现。

Dec, 2022

RAFT: 一个现实世界的少样本文本分类基准

该研究论文讨论预训练的语言模型在少量数据情况下完成自然语言处理任务的表现，提出了一种新的用于测量模型在真实世界中应用的少量样本任务的基准测试 RAFT，这个基准测试展示了当前技术存在的困难和挑战，虽然一些分类任务对于普通人来说也很困难，但普通人在这些任务上的表现超过了 GPT-3 模型。

Sep, 2021

一种灵活框架的零样本文档级问答检测、检索和理解

本文提出了一种三阶段文件 QA 方法，包括从 PDF 中提取文本，从提取的文本中检索证据以形成良好的上下文，以及从上下文中提取 3 种类型的知识（抽取式、生成式或布尔式）。通过对 QASPER 的评估，DRC 系统在交付更优的上下文选择的同时，Answer-F1 达到了 +7.19 的提高。结果表明，DRC 在科学文献 QA 中有很大的亮点。

Oct, 2022

CONVERSER：基于合成数据生成的小样本对话稠密检索

使用 CONVERSER 框架，在最多 6 个领域对话示例的情况下，利用大规模语言模型的上下文学习能力为基于对话的密集重排进行训练，实验结果表明所提出的框架在少样本对话密集重排中取得了可比较的性能。

Sep, 2023

面向任务的对话中基于非结构化知识的高效检索增强生成

本文总结了我们在第九届对话系统技术挑战赛（DSTC 9）第一轨中的工作，我们提出了一种基于层次分类和序列嵌入的检索和生成方法，以实现针对任务导向对话中利用非结构化文本信息的回答生成。

Feb, 2021

简单实体中心问题挑战密集检索器

本文主要研究使用 Wikidata 数据构造的 entity-rich questions 在密集检索模型中表现不佳的问题，并探讨了两种解决方案：第一种解决方法是数据扩充无法解决广义化问题，第二种解决方法是更加强大的 passage encoder 有助于使用专门化的问题编码器来更好地适应问题。

Sep, 2021