SIGIRMay, 2024
检索评估的合成测试集
Synthetic Test Collections for Retrieval Evaluation
Hossein A. Rahmani, Nick Craswell, Emine Yilmaz, Bhaskar Mitra, Daniel Campos
TL;DR使用大型语言模型构建综合人工合成测试集来评估信息检索系统的可行性及存在的潜在偏见风险。
Abstract
test collections play a vital role in evaluation of information retrieval
(IR) systems. Obtaining a diverse set of user queries for test collection
construction can be challenging, and acquiring relevance judgments
test collectionsrelevance judgmentslarge language modelssynthetic test collectionsretrieval evaluation
发现论文,激发创造
利用大型语言模型进行文本分类的合成数据生成:潜力与局限性
通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系,我们发现主观性对于模型训练的合成数据的性能具有负面影响,从而限制了利用 LLM 进行合成数据生成的潜力和局限性。
Oct, 2023
SynthesizRR: 利用检索增强生成多样化数据集
通过检索和改进综合方法(SynthesizRR),我们通过扩展种子生成内容的方式来合成数据集,从而在语义和词汇多样性、与人类书写文本的相似性以及提纯效果方面极大地改善了标准 32-shot prompting 和其他六种基线方法。
May, 2024
关于基于 LLMs 驱动的合成数据生成、整理和评估的调查
这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式,突出现有研究中的差距,并概述未来研究的前景,以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。
Jun, 2024
在多语言多层次检索中,利用 LLMs 合成训练数据
通过使用 SWIM-IR 合成训练数据集,我们研究了多语言密集检索模型的能力,并在三个检索基准上对其进行了全面评估,发现 SWIM-IR 可以以较低成本替代昂贵的人工标记检索训练数据。
Nov, 2023
大型语言模型的数量化知识检索
大型语言模型可用于定量信息检索,以帮助数据分析任务,如贝叶斯模型的先验分布以及缺失数据的插补。我们提出了一个提示工程框架,将大型语言模型视为科学文献的潜在空间界面,并与其他已建立的方法进行比较。同时讨论了使用大型语言模型作为 “专家” 的影响和挑战。
Feb, 2024