具有用户定义提示的 LLMs 作为可靠数据处理的通用数据操作器

Dec, 2023

具有用户定义提示的 LLMs 作为可靠数据处理的通用数据操作器

LLMs with User-defined Prompts as Generic Data Operators for Reliable Data Processing

Luyi Ma, Nikhil Thakurdesai, Jiao Chen, Jianpeng Xu, Evren Korpeoglu...

TL;DR为了解决用户定义函数的设计模式在机器学习流水线中所面临的挑战，我们提出了一种新的设计模式，利用大型语言模型作为通用数据操作符 (LLM-GDO) 来进行可靠的数据清理、转换和建模，在 LLM-GDO 设计模式中，使用用户定义的提示来表示数据处理逻辑，而不是使用特定编程语言的实现。利用领域特定数据对 LLMs 进行微调可以增强领域特定任务的性能，使数据处理具备知识感知的能力。我们通过不同的数据处理任务的例子来说明这些优点，并总结了 LLMs 引入的挑战和机会，以提供对该设计模式的全面理解，以供更多的讨论。

Abstract

data processing is one of the fundamental steps in machine learning pipelines to ensure data quality. Majority of the applications consider the user-defined function (UDF) design pattern for →

data processing user-defined function design pattern large language models data cleansing

发现论文，激发创造

UniDM：面向大语言模型的数据操作统一框架

研究通过利用大语言模型（LLMs）和自动化上下文检索，设计了一个统一框架 UniDM，用于解决数据操作任务，并在各种基准测试中展现出极高的通用性和先进性能。

May, 2024

利用大型语言模型解决数据中心任务

通过挖掘 StackOverflow 帖子中的实际自然语言到代码任务来创建一个数据集，该论文提出了一种以聚类选择为基础的提示技术来确定在 LLMs 提示中包含多少数据以及选择哪些数据，并通过实验表明 LLM 的性能确实对提示中所传递的数据量敏感，对于输入表中存在大量语法变化的任务，聚类选择技术优于随机选择基准模型。

Feb, 2024

通过声明式众包重新审视提示工程

大型语言模型（LLM）在理解和生成文本数据方面非常强大，但容易出错。本文提出了一种声明性提示工程方法，将 LLM 视为众包工作者，并借鉴了声明性众包文献的思想，包括多种提示策略、确保内部一致性和探索混合 LLM - 非 LLM 方法，使提示工程过程更加有原则。在排序、实体解析和插补方面的初步案例研究展示了我们方法的优势。

Aug, 2023

对话模型的节约提示

研究了使用大型语言模型建立对话系统的不同方法，并分析了对话历史的表示方式，提出了一种更紧凑的提供对话历史信息的方法，从而有效减少模型 API 的成本。

May, 2023

提升大型语言模型的数据生成能力

本文提出了一种统一的数据创建流程，只需一个格式示例，适用于包括传统上问题较多的任务在内的广泛范围，通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好（高达 17.5%），同时在分布内任务上保持可比较的性能，这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。

Oct, 2023

与提示问题的交互：使用大型语言模型进行编程教学的新方法

通过 Prompt Problems 的方法，我们提出了一种新的教授编程的方式，学生可以通过将问题转化为语言模型（LLMs）所能理解的提示来解决编程问题，并且我们展示了这个工具的设计、学生使用情况以及将 LLMs 整合到设计工具中所带来的新型编程问题和洞见。

Jan, 2024

一个提示模式目录：用于增强 ChatGPT 的提示工程

这篇文章介绍了 Prompt 工程技术的目录，包含适用于大型语言模型的多个生产输出和互动方面的工作中的问题的重复使用解决方案。

Feb, 2023

LLM 增强数据管理

LLMDB 是一种通过应用机器学习和大型语言模型优化数据管理问题的范例，具有高泛化能力和推理能力，可避免幻觉问题，并通过引入特定领域的知识、矢量数据库和 LLM 代理来提高准确性，其中三个真实场景包括查询重写、数据库诊断和数据分析。

Feb, 2024

一种混合软提示的可控数据生成方法

本文介绍了一种利用大型语言模型作为数据增强工具的技术，即利用软提示的混合模型进行参数有效的数据生成，并通过去噪机制提高生成数据的质量，此方法能够在复杂预测任务中实现对标签语义的保留，达到优于强基准的最新结果。

Mar, 2023

面向目标导向的大型语言模型提示：综述

大型语言模型在各种下游任务中表现出显著性能，而引导工程在优化大型语言模型性能中起着关键作用。本文通过回顾 35 项代表性研究，突出设计提示的局限性，同时保持一个期待大型语言模型像人类思考的人类化假设。通过引导大型语言模型按照建立的人类逻辑思维，我们展示目标导向的提示形式显著提高了大型语言模型的性能。此外，我们引入了一个新的分类法，将目标导向的提示方法分为五个相互关联的阶段，并通过总结十个可适用任务来展示我们框架的广泛适用性。我们提出了四个未来方向，希望进一步强调和推动目标导向的提示工程。

Jan, 2024