检索评估的合成测试集

SIGIRMay, 2024

Synthetic Test Collections for Retrieval Evaluation

Hossein A. Rahmani, Nick Craswell, Emine Yilmaz, Bhaskar Mitra, Daniel Campos

TL;DR使用大型语言模型构建综合人工合成测试集来评估信息检索系统的可行性及存在的潜在偏见风险。

Abstract

test collections play a vital role in evaluation of information retrieval (IR) systems. Obtaining a diverse set of user queries for test collection construction can be challenging, and acquiring relevance judgments

test collections relevance judgments large language models synthetic test collections retrieval evaluation

发现论文，激发创造

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用 LLM 进行合成数据生成的潜力和局限性。

Oct, 2023

SynthesizRR: 利用检索增强生成多样化数据集

通过检索和改进综合方法（SynthesizRR），我们通过扩展种子生成内容的方式来合成数据集，从而在语义和词汇多样性、与人类书写文本的相似性以及提纯效果方面极大地改善了标准 32-shot prompting 和其他六种基线方法。

May, 2024

关于基于 LLMs 驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

针对对话推荐系统的合成数据集评估

本研究提出对生成模型产生的数据集进行多方面评估的框架，探讨了各种评估方法的优缺点

Dec, 2022

我们能利用大型语言模型填补相关性评判空缺吗？

利用大型语言模型填补测试集中的空缺，以扩展现有的测试集合，并找出人工注释与自动注释的一致性差异，从而更好地满足人类需求的工作。

May, 2024

用于语义缓存测试输入生成的 LLM

LLMs 被用于测试输入生成以及语义应用，并探讨了语义缓存技术的相关问题和考虑事项。

Jan, 2024

在多语言多层次检索中，利用 LLMs 合成训练数据

通过使用 SWIM-IR 合成训练数据集，我们研究了多语言密集检索模型的能力，并在三个检索基准上对其进行了全面评估，发现 SWIM-IR 可以以较低成本替代昂贵的人工标记检索训练数据。

Nov, 2023

从人工针到真实大量数据集：通过在合成数据上进行微调来改进 LLMs 的检索能力

利用合成数据集对大型语言模型进行微调，显著提高了其在长上下文环境下的信息检索和推理能力。

Jun, 2024

为高效、个性化信息检索调整语言模型的方法与影响

大型语言模型（LLMs）在信息检索方面的优化、模型幻觉、用户隐私等关键问题的研究。

Nov, 2023

大型语言模型的数量化知识检索

大型语言模型可用于定量信息检索，以帮助数据分析任务，如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架，将大型语言模型视为科学文献的潜在空间界面，并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。

Feb, 2024