SynthesizRR: 利用检索增强生成多样化数据集

May, 2024

SynthesizRR: 利用检索增强生成多样化数据集

SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation

Abhishek Divekar, Greg Durrett

TL;DR通过检索和改进综合方法（SynthesizRR），我们通过扩展种子生成内容的方式来合成数据集，从而在语义和词汇多样性、与人类书写文本的相似性以及提纯效果方面极大地改善了标准 32-shot prompting 和其他六种基线方法。

Abstract

large language models (LLMs) are versatile and can address many tasks, but for computational efficiency, it is often desirable to distill their capabilities into smaller student models. One way to do this for classification tasks is via →

large language models dataset synthesis few-shot prompting retrieval augmentation distillation performance

发现论文，激发创造

在多语言多层次检索中，利用 LLMs 合成训练数据

通过使用 SWIM-IR 合成训练数据集，我们研究了多语言密集检索模型的能力，并在三个检索基准上对其进行了全面评估，发现 SWIM-IR 可以以较低成本替代昂贵的人工标记检索训练数据。

Nov, 2023

检索评估的合成测试集

使用大型语言模型构建综合人工合成测试集来评估信息检索系统的可行性及存在的潜在偏见风险。

May, 2024

用于低资源领域任务的检索增强数据增强

提出了一种新的方法，通过将其他数据集中的丰富示例与给定的训练数据结合起来，通过在原始和检索的样本之间的上下文信息中促使大型语言模型生成新的样本，以增加训练数据的多样性和相关性，在低资源环境中实现了比现有大型语言模型数据增强基线更好的性能。

Feb, 2024

UDAPDR：基于 LLM 加速的无监督域自适应及 Reranker 蒸馏方法

通过使用大型语言模型 (LLMs) 生成大量合成的查询，可以在不使用大量标记的数据的情况下，有效地优化实现信息检索任务，同时消除因为领域的转变而导致真实世界应用效力降低的问题。

Mar, 2023

通过大型语言模型重定义结构化数据库的信息检索

本文介绍了一种名为 ChatLR 的新型检索增强框架，主要利用大型语言模型（LLMs）的强大语义理解能力作为检索器，以实现精确和简洁的信息检索。通过在金融领域微调 LLM 并构建基于 LLM 的搜索和问答系统，实验证明 ChatLR 在解决用户查询中表现出高达 98.8％的信息检索准确性。

May, 2024

个性化大型语言模型的优化方法：通过检索增强

本研究论文探讨了扩展的检索方法用于个性化大型语言模型，通过两种优化算法从下游任务获取反馈进行检索优化，并引入了一个预生成和后生成的检索模型来决定每个语言模型输入应选择哪个检索器。在多个任务中进行了大量实验，并获得了显著的统计结果。

Apr, 2024

RRAML: 强化检索增强机器学习

通过提出一种名为增强检索增强机器学习（RRAML）的新型框架，将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合，有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。

Jul, 2023

从人工针到真实大量数据集：通过在合成数据上进行微调来改进 LLMs 的检索能力

利用合成数据集对大型语言模型进行微调，显著提高了其在长上下文环境下的信息检索和推理能力。

Jun, 2024

关于基于 LLMs 驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

通过大型语言模型整合总结和检索，实现个性化增强

通过使用离线总结和运行时检索，我们提出了一种新颖的基于总结的方法，扩展了基于检索的个性化，以实现更好的实时系统性能，并在实际约束下取得了更好的个性化性能。

Oct, 2023