训练数据价值超你想象：一种简单有效的从训练数据中检索的方法

ACLMar, 2022

训练数据价值超你想象：一种简单有效的从训练数据中检索的方法

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data

Shuohang Wang, Yichong Xu, Yuwei Fang, Yang Liu, Siqi Sun...

TL;DR本文提出了一种简单的 REtrieving from the traINing datA (REINA) 方法，通过从训练数据中检索最相似的实例并与输入进行拼接来提高自然语言处理任务的性能，实验证明该方法在多个 NLU 和 NLG 任务中都能取得最先进的结果。

Abstract

retrieval-based methods have been shown to be effective in NLP tasks via introducing external knowledge. However, the indexing and retrieving of large-scale corpora bring considerable computational cost. Surprisingly, we found that REtrieving from the traINing datA (→

retrieval-based methods reina nlu tasks nlg tasks state-of-the-art results

发现论文，激发创造

零样本检索：用搜索引擎增强预训练模型

使用 NLP 和多模式学习，该论文介绍了如何通过搜索引擎检索来增强预训练模型，从而在测试时从互联网中检索到有用的数据，并更新模型以解决模型的不确定性，取得了零样本性能的显著改进。

Nov, 2023

强化信息检索与生成的大型语言模型

我们提出了一种迭代检索 - 生成的协作框架，该框架可以利用参数化和非参数化知识，帮助找到正确的推理路径，并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型，在单跳和多跳问答任务上取得了显著的改进。

Oct, 2023

知识密集型任务的多任务检索

本文介绍了一个多任务学习的神经检索模型，该模型在少样本、领域内外多种问题下表现良好，能够有效地检索到相关上下文信息，并且在多个基准测试中实现了与或优于目前的最新技术结果。

Jan, 2021

从全网图片 - 文本数据中检索来提高图像识别

研究使用检索增强模型来提高计算机视觉任务的识别能力，引入了一种基于注意力机制的记忆模块，学习从外部记忆集合中检索出的每个例子的重要性，证明了使用 10 亿个图像 - 文本对的大规模记忆数据集的好处，并在 ImageNet-LT，Places-LT 和 Webvision 数据集中取得了最先进的准确性。

Apr, 2023

RETRONLU：检索增强的任务导向语义解析

使用检索式建模的思想，为会话助手的多领域任务定向语义解析问题引入了 RetroNLU 方法，通过在序列到序列模型中扩展检索部件，我们的技术在语义解析的不同语言表达复杂度下均比基线更为出色，尤其是在数据稀缺环境下，只需 40％的数据即可达到基线模型准确度的匹配，超越基线方法 1.5％的绝对宏 - F1。

Sep, 2021

利用潜在知识和对话上下文实现真实世界会话问答

该论文提出了一种基于神经检索 - 阅读 (Retrieval-Reading) 系统和基于 TFIDF 的文本摘要技术来利用先前的谈话历史中的潜在知识的方法，以便更好地回答问题，并且实验证明该系统显著提高了回答质量。

Dec, 2022

检索即生成

我们提出了一种新颖的方法，通过从一系列支持文件中选择上下文相关的短语来生成文本，并使用语言学启发式方法初始化训练阐述，并通过迭代的自我增强来加强训练阐述。实验证明，与标准语言模型相比，我们的模型在各种知识密集型任务上不仅表现出色，而且在开放式文本生成中表现出更高的生成质量。我们的模型在 OpenbookQA 上将准确性从 23.47% 提高到 36.27%，在开放式文本生成中的 MAUVE 得分从 42.61% 提高到 81.58%。值得注意的是，我们的模型在几个检索增强基准中实现了最佳性能和最低延迟。总之，我们断言检索是更准确的生成，并希望我们的工作能够鼓励进一步研究这一新的转变。

Feb, 2024

学习检索：如何有效高效地训练密集检索模型

信息检索一直是信息检索研究的重点之一。近年来，提出了 Dense Retrieval（DR）技术来缓解诸如词汇不匹配问题等固有缺陷，但是绝大多数现有 DR 模型的培训都依赖于从语料库中抽样负实例来优化成对损失函数，即不公平的样本，因此提出了 Learning To Retrieve（LTRe）培训技术，它通过预先构建文档索引，并在每个培训迭代中在没有负样本采样的情况下执行全检索，从而在整个语料库中检索相关文档，实验表明，LTRe 在有效性方面明显优于所有有竞争力的稀疏和密集基线。它甚至在合理的延迟限制下比 BM25-BERT 级联系统表现更好。

Oct, 2020

学习与职位匹配的检索

应用学习检索技术改进 LinkedIn 的职位搜索和推荐系统，通过构建评估求职者资格的图和利用学习到的链接进行检索，提高应聘人员质量并优化求职者参与度。

Feb, 2024

使用外部数据进行口语命名实体识别

本文研究语音识别与文本命名实体识别的端到端模型，研究使用未标注文本数据和数据增强技术来提高实体识别的性能。通过引入自学习、知识蒸馏和迁移学习等方法，该文发现这些技术在资源受限的情况下可以提高实体识别的性能。同时，本文展示了相比于之前的工作，这些方法在 F1 分数方面提高了长达 16% 的表现。

Dec, 2021