DataDreamer：一种用于合成数据生成和可复现的LLM工作流的工具

Feb, 2024

DataDreamer：一种用于合成数据生成和可复现的LLM工作流的工具

DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows

Ajay Patel, Colin Raffel, Chris Callison-Burch

TL;DR介绍了DataDreamer，这是一个开源Python库，允许研究人员编写简单的代码来实现强大的LLM工作流程，并帮助研究人员遵循我们提出的鼓励开放科学和可重复性的最佳实践。

Abstract

large language models (llms) have become a dominant and important tool for nlp researchers in a wide range of tasks. Today, many researche

发现论文，激发创造

Prompt2Model: 从自然语言指令生成可部署的模型

通过Prompt2Model方法，可以使用少量的提示，训练出性能优异、体积小700倍的特定目的模型，用于自然语言处理任务。

Aug, 2023

Data-Juicer：大型语言模型的一站式数据处理系统

我们提出了一种强大而灵活、易于使用的数据处理系统Data-Juicer，它提供了50多种内置的多功能操作符和可插拔工具，通过可视化和自动化评估能力，加快数据处理并获得数据洞察力，提供用户友好的界面并发布多种数据配方，同时实现高效和可扩展的数据处理。

Sep, 2023

ChainForge：一个用于提示工程和LLM假设测试的可视化工具包

ChainForge是一个开源的可视化工具包，用于大型语言模型的提示工程和按需假设测试，它提供了一个图形界面，用于跨模型和提示变体之间的响应比较。

Sep, 2023

利用大型语言模型进行文本分类的合成数据生成：潜力与局限性

通过研究LLM生成的合成数据的表现与分类的主观性之间的关系，我们发现主观性对于模型训练的合成数据的性能具有负面影响，从而限制了利用LLM进行合成数据生成的潜力和局限性。

Oct, 2023

提升大型语言模型的数据生成能力

本文提出了一种统一的数据创建流程，只需一个格式示例，适用于包括传统上问题较多的任务在内的广泛范围，通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好（高达17.5%），同时在分布内任务上保持可比较的性能，这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。

Oct, 2023

超越基于参考度量的方法：分析数据到文本生成领域的开放式LLM行为

探究了开放式大型语言模型（LLMs）从结构化数据生成连贯和相关文本的程度，通过使用 Quintd-1 数据集，以及基于语义准确性错误的评估方法，发现开放式 LLMs 可以在零样本情况下从各种标准数据格式生成流畅、一致的文本，但语义准确性仍然是一个主要问题。

Jan, 2024

低成本语言模型：Python代码生成的调研及性能评估

我们研究了大型语言模型在生成Python代码方面的优势和劣势，并提出了一种引导模型解决问题的思维链条提示，同时还提供了一个由60个不同难度级别的编程问题组成的数据集进行评估。

Apr, 2024

关于基于LLMs驱动的合成数据生成、整理和评估的调查

这篇论文旨在通过提出一种基于合成数据生成的通用工作流程的组织方式，突出现有研究中的差距，并概述未来研究的前景，以引导学术和工业界更深入、更系统地探索基于大型语言模型驱动的合成数据生成的能力和应用。

Jun, 2024

合成数据作为基准的有效性

本研究解决了合成数据在自然语言处理任务中作为基准的代表性问题。通过评估合成数据的生成效果，提出了“偏差因子”这一新指标，揭示小型大型语言模型对自生成数据的偏见。研究结果表明，不同任务对合成数据的有效性要求不同，因此建议实践者在可能的情况下使用来自多个大型模型生成的数据。

Sep, 2024

利用大型语言模型进行API交互：分类和合成数据生成的框架

本研究解决了如何高效地将自然语言命令转化为相应API调用的问题。我们提出了一种新系统，利用大型语言模型进行自然语言分类和自动生成示例数据集，从而降低软件使用门槛，提高交互效率。实验证明，GPT-4的高分类准确率（0.996）展示了大型语言模型在API管理中的潜在转变能力，强调了该系统在模型测试和选择中的有效性。

Sep, 2024