利用不对称性进行合成训练数据生成:SynthIE 与信息抽取案例
通过研究 LLM 生成的合成数据的表现与分类的主观性之间的关系,我们发现主观性对于模型训练的合成数据的性能具有负面影响,从而限制了利用 LLM 进行合成数据生成的潜力和局限性。
Oct, 2023
信息提取是从自然语言文本中提取结构化知识(如实体、关系和事件)的过程。最近,生成式大型语言模型(LLMs)在文本理解和生成方面展示出了显著的能力,允许在各个领域和任务中进行概括。为了对 LLMs 在信息提取任务中的努力进行全面系统的回顾和探索,我们通过调查这个领域的最新进展来进行研究。我们首先通过以各种信息提取子任务和学习范式进行分类来呈现一个全面的概述,然后我们经验性地分析最先进的方法并发现使用 LLMs 的信息提取任务的新兴趋势。通过进行彻底审查,我们确定了一些技术见解和有希望进一步探索的研究方向,值得在未来研究中持续探索。我们在以下网址维护一个公共资源库并定期更新相关资源:https://github.com/quqxui/Awesome-LLM4IE-Papers。
Dec, 2023
引入了一种为大型语言模型定制的细粒度信息抽取基准数据集,通过评估发现编码器 - 解码器模型在泛化到未见过的信息类型方面表现良好,而 ChatGPT 对于新任务形式具有更大的适应性。结果还表明,性能不仅仅取决于模型规模,还强调了架构、数据多样性和学习技术的重要性。这项工作为在信息提取中更精细、更灵活地利用大型语言模型铺平了道路。
Oct, 2023
利用大型预训练语言模型作为综合数据生成器,对于信息检索任务的未监督数据的微调,可以使检索器在零样本学习和有监督学习的任务中获得更好的表现
Feb, 2022
通过使用合成数据和少于 1k 个训练步骤,我们引入了一种获取高质量文本嵌入的新颖简单方法。与现有方法不同,我们的方法不需要构建复杂的训练流程或依赖于常常受到任务多样性和语言覆盖性限制的人工收集的数据集。通过利用专有 LLMs 在近 100 种语言中生成大量多样化的合成数据,我们使用标准对比损失在合成数据上微调开源的只解码 LLMs。实验证明,我们的方法在高度竞争的文本嵌入基准上具有强大的性能,而不使用任何标记数据。此外,当用合成数据和标记数据的混合进行微调时,我们的模型在 BEIR 和 MTEB 基准上创造了最新的技术成果。
Dec, 2023
通过使用 SWIM-IR 合成训练数据集,我们研究了多语言密集检索模型的能力,并在三个检索基准上对其进行了全面评估,发现 SWIM-IR 可以以较低成本替代昂贵的人工标记检索训练数据。
Nov, 2023
这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式,突出现有研究中的差距,并概述未来研究的前景,以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。
Jun, 2024
使用大型预训练模型生成合成目标数据可以提高限定资源环境下机器翻译模型的性能,这种方法可以优于在实际数据上训练模型,效果更好的原因可以归因于模型参数的数量限制和优化效果的提高。
May, 2023
通过使用机器翻译创建合成数据(Translationese)预训练语言模型(LMs),本研究探讨了将 Translationese 作为一种用于预训练语言模型的可用性。我们以英语和印度语为例,将网络抓取的单语文档翻译成目标语言,然后在这些合成数据(synthetic)上用含有 2800 万和 8500 万参数的语言模型进行训练。实验证明,在下游自然语言理解和生成任务中,与基于干净数据进行预训练的语言模型相比,我们的模型性能仅差 3.56%(自然语言理解任务)和 1.51%(自然语言生成任务)。此外,我们提出了使用基于干净数据进行预训练的轻量级 TinyLMs 有效过滤合成数据的方法,从而显著提高模型性能。我们还发现,在一个微小比例(10%)的干净数据上进行扩展预训练能显著改善预训练合成数据的语言模型。我们通过这项工作收集和创建的数据集 IndicMonoDoc 是最大的单语文档级语料库,希望能够弥补英语和非英语大型语言模型性能差距。
Mar, 2024