UniDM:面向大语言模型的数据操作统一框架
LLMDB 是一种通过应用机器学习和大型语言模型优化数据管理问题的范例,具有高泛化能力和推理能力,可避免幻觉问题,并通过引入特定领域的知识、矢量数据库和 LLM 代理来提高准确性,其中三个真实场景包括查询重写、数据库诊断和数据分析。
Feb, 2024
通过 Uni3D-LLM,我们引入了一个统一框架,利用大型语言模型(LLM)在点云场景中整合了 3D 感知、生成和编辑任务,从而让用户能够轻松地根据自然语言描述在场景中生成和修改对象,显著提高操作的灵活性和可控性。
Jan, 2024
本文提出了一种统一的生成式对话理解框架 UniDU,将所有 DU 任务都重新定义成统一的基于提示的生成模型。并引入了一种新颖的模型非特定多任务训练策略 (MATS) 来在训练期间动态地适应各种任务的权重以实现最佳的知识共享。实验表明,UniDU 框架在所有任务上均比特定任务的良好设计方法表现更优,并揭示了这些任务的知识共享结构。最后,UniDU 在未知对话领域获得了良好的性能,显示出广泛应用的巨大潜力。
Apr, 2022
为了解决用户定义函数的设计模式在机器学习流水线中所面临的挑战,我们提出了一种新的设计模式,利用大型语言模型作为通用数据操作符 (LLM-GDO) 来进行可靠的数据清理、转换和建模,在 LLM-GDO 设计模式中,使用用户定义的提示来表示数据处理逻辑,而不是使用特定编程语言的实现。利用领域特定数据对 LLMs 进行微调可以增强领域特定任务的性能,使数据处理具备知识感知的能力。我们通过不同的数据处理任务的例子来说明这些优点,并总结了 LLMs 引入的挑战和机会,以提供对该设计模式的全面理解,以供更多的讨论。
Dec, 2023
本文提出了一种统一的数据创建流程,只需一个格式示例,适用于包括传统上问题较多的任务在内的广泛范围,通过实验证明使用指令跟随型大型语言模型创建的数据比使用人工标注的数据在分布外评估上表现更好(高达 17.5%),同时在分布内任务上保持可比较的性能,这些结果对于在现实世界中部署的自然语言处理系统的稳健性具有重要意义。
Oct, 2023
UniGen 是一个综合的 LLM 框架,利用创新机制解决现有生成框架中的泛化、可控性、多样性和准确性等挑战,通过引入属性导向的生成模块和检查功能,以及基于代码的数学评估和检索增强生成技术,产生多样、准确和高度可控的数据,并支持用户指定的约束条件,满足特定需求。相比其他生成方法,UniGen 生成的数据质量更高,适用于动态演变的基准测试和数据增强,提升了 LLM 在代理能力和推理技能等领域的能力。
Jun, 2024
本文提出了一个通用的深度神经机器翻译模型, Unified Model Learning for NMT (UMLNMT),它能够在多种翻译任务中实现智能的即时翻译,相较于基于具体数据集训练的模型,该模型的性能有了显著的提升,部署成本也大大降低,并且在生成多样化、高质量的翻译方面表现优异。此外,作者也提供了一个关于名言警句的中英文句子翻译数据集。
May, 2023
本文介绍了一种新的统一预训练语言模型 (UniLM),该模型可用于自然语言理解和生成任务,使用了三种类型的语言建模任务进行预训练,采用共享 Transformer 网络和特定的自我注意掩码来控制预测条件的上下文,其在自然语言生成方面的表现优于 BERT,最终达到了五种自然语言生成数据集的最新最优成果。
May, 2019
通过挖掘 StackOverflow 帖子中的实际自然语言到代码任务来创建一个数据集,该论文提出了一种以聚类选择为基础的提示技术来确定在 LLMs 提示中包含多少数据以及选择哪些数据,并通过实验表明 LLM 的性能确实对提示中所传递的数据量敏感,对于输入表中存在大量语法变化的任务,聚类选择技术优于随机选择基准模型。
Feb, 2024