重新思考稠密检索的少样本能力
本文提出了 ConvDR,一个用于多轮对话的稠密检索系统,它通过学习上下文化嵌入,仅使用嵌入点积来检索文档,并使用教师 - 学生框架赋予 ConvDR 少样本学习能力。在 TREC CAsT 和 OR-QuAC 上的实验表明,ConvDR 在少样本和完全监督的情况下表现优于之前的系统,并且比较高效。
May, 2021
本文通过第一次全面细致的研究,发现了与源数据集相关的关键因素、目标数据集的潜在偏差和现有零样本 DR 模型,从而提供了关于零样本 DR 模型的更好的理解和发展的重要证据。
Apr, 2022
提出一种基于信息检索的方法来解决 few-shot 学习问题,通过同时优化每个训练批次中所有相对排序以提取尽可能多的信息, 在结构化预测的框架内定义模型来优化平均精度,从而实现在标准 few-shot 分类基准测试上取得令人印象深刻的结果,并具有 few-shot 检索的能力。
Jul, 2017
提出一种名为 DRAFT 的简单框架,用于训练少样本主题分类器,通过使用特定主题的少量示例作为查询构建自定义数据集,并应用多查询检索算法以构建自定义数据集,最后使用该数据集来微调分类器以识别主题。
Dec, 2023
提出了一种新的零样本稠密检索方法 COCO-DR,通过对抗源训练任务和目标场景之间的分布转移来提高稠密检索的泛化能力,使用连续对比学习在目标文本上对语言模型进行预训练以适应目标分布,通过基于分布的鲁棒优化重要样本,在未见过的目标查询上优化模型,COCO-DR 在零样本检索基准 BEIR 上获得了优异表现,其代码和模型可以在指定的网址找到。
Oct, 2022
本文提出了 Few-NERD 数据集,并利用其来制定基准任务,从而全面评估模型的泛化能力,结果表明 Few-NERD 具有挑战性并需要进一步研究。
May, 2021
我们提出了 FewRel 数据集,其中包含来自维基百科的 100 种关系中的 70,000 个句子,这些句子由群众工作者进行注释。我们针对关系分类采用了最新的 Few-Shot Learning 方法,并对这些方法进行了全面的评估。实证结果表明,即使是最具竞争力的少样本学习模型也很难完成此任务,这表明 Few-Shot Learning 在关系分类方面仍然存在着问题,需要进一步的研究。
Oct, 2018
本研究综述了少样本物体检测的现有成果及未来展望,提出了基于数据的训练分类法和相应监督的形式,并对其定义、主要挑战、基准数据集、评估指标和学习策略进行了详细调查,最后总结了少样本目标检测的现状以及未来的研究方向。
Oct, 2021
选择在没有标签可用的新收集中搜索时使用的密集检索模型是一个重要而困难的问题,因为不同的密集检索模型在不同数据集上的搜索效果差异很大。我们建议信息检索社区考虑这个问题,并提供在无需标签进行评估的零样本设置中选择高效密集检索模型的可靠方法。
Sep, 2023