UniDM：面向大语言模型的数据操作统一框架

May, 2024

UniDM：面向大语言模型的数据操作统一框架

UniDM: A Unified Framework for Data Manipulation with Large Language Models

Yichen Qian, Yongyi He, Rong Zhu, Jintao Huang, Zhijian Ma...

TL;DR研究通过利用大语言模型（LLMs）和自动化上下文检索，设计了一个统一框架 UniDM，用于解决数据操作任务，并在各种基准测试中展现出极高的通用性和先进性能。

Abstract

Designing effective data manipulation methods is a long standing problem in data lakes. Traditional methods, which rely on rules or machine learning models, require extensive human efforts on training data collection and tuning models. Recent methods apply Large Language Models (LLMs)

data manipulation large language models (llms)unidm automatic context retrieval state-of-the-art performance

发现论文，激发创造

LLM 增强数据管理

LLMDB 是一种通过应用机器学习和大型语言模型优化数据管理问题的范例，具有高泛化能力和推理能力，可避免幻觉问题，并通过引入特定领域的知识、矢量数据库和 LLM 代理来提高准确性，其中三个真实场景包括查询重写、数据库诊断和数据分析。

Feb, 2024

Uni3D-LLM：利用大型语言模型统一点云感知、生成和编辑

通过 Uni3D-LLM，我们引入了一个统一框架，利用大型语言模型（LLM）在点云场景中整合了 3D 感知、生成和编辑任务，从而让用户能够轻松地根据自然语言描述在场景中生成和修改对象，显著提高操作的灵活性和可控性。

Jan, 2024

UniDU: 面向统一的生成式对话理解框架

本文提出了一种统一的生成式对话理解框架 UniDU，将所有 DU 任务都重新定义成统一的基于提示的生成模型。并引入了一种新颖的模型非特定多任务训练策略 (MATS) 来在训练期间动态地适应各种任务的权重以实现最佳的知识共享。实验表明，UniDU 框架在所有任务上均比特定任务的良好设计方法表现更优，并揭示了这些任务的知识共享结构。最后，UniDU 在未知对话领域获得了良好的性能，显示出广泛应用的巨大潜力。

Apr, 2022

具有用户定义提示的 LLMs 作为可靠数据处理的通用数据操作器

为了解决用户定义函数的设计模式在机器学习流水线中所面临的挑战，我们提出了一种新的设计模式，利用大型语言模型作为通用数据操作符 (LLM-GDO) 来进行可靠的数据清理、转换和建模，在 LLM-GDO 设计模式中，使用用户定义的提示来表示数据处理逻辑，而不是使用特定编程语言的实现。利用领域特定数据对 LLMs 进行微调可以增强领域特定任务的性能，使数据处理具备知识感知的能力。我们通过不同的数据处理任务的例子来说明这些优点，并总结了 LLMs 引入的挑战和机会，以提供对该设计模式的全面理解，以供更多的讨论。

Dec, 2023

提升大型语言模型的数据生成能力

本文提出了一种统一的数据创建流程，只需一个格式示例，适用于包括传统上问题较多的任务在内的广泛范围，通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好（高达 17.5%），同时在分布内任务上保持可比较的性能，这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。

Oct, 2023

UniGen：使用大型语言模型进行文本数据集生成的统一框架

UniGen 是一个综合的 LLM 框架，利用创新机制解决现有生成框架中的泛化、可控性、多样性和准确性等挑战，通过引入属性导向的生成模块和检查功能，以及基于代码的数学评估和检索增强生成技术，产生多样、准确和高度可控的数据，并支持用户指定的约束条件，满足特定需求。相比其他生成方法，UniGen 生成的数据质量更高，适用于动态演变的基准测试和数据增强，提升了 LLM 在代理能力和推理技能等领域的能力。

Jun, 2024

多种神经机器翻译的统一模型学习

本文提出了一个通用的深度神经机器翻译模型， Unified Model Learning for NMT (UMLNMT)，它能够在多种翻译任务中实现智能的即时翻译，相较于基于具体数据集训练的模型，该模型的性能有了显著的提升，部署成本也大大降低，并且在生成多样化、高质量的翻译方面表现优异。此外，作者也提供了一个关于名言警句的中英文句子翻译数据集。

May, 2023

增强语言模型数据整合的学习

本篇论文研究了大型语言模型的局限性，提出了使用外部数据访问技术扩展语言模型的解决方法，并将其与数据集成的研究进行了比较，探讨了研究路径的启示。

Apr, 2023

自然语言理解与生成的统一语言模型预训练

本文介绍了一种新的统一预训练语言模型 (UniLM)，该模型可用于自然语言理解和生成任务，使用了三种类型的语言建模任务进行预训练，采用共享 Transformer 网络和特定的自我注意掩码来控制预测条件的上下文，其在自然语言生成方面的表现优于 BERT，最终达到了五种自然语言生成数据集的最新最优成果。

May, 2019

利用大型语言模型解决数据中心任务

通过挖掘 StackOverflow 帖子中的实际自然语言到代码任务来创建一个数据集，该论文提出了一种以聚类选择为基础的提示技术来确定在 LLMs 提示中包含多少数据以及选择哪些数据，并通过实验表明 LLM 的性能确实对提示中所传递的数据量敏感，对于输入表中存在大量语法变化的任务，聚类选择技术优于随机选择基准模型。

Feb, 2024