表格数据任务的自动提示生成系统

ACLMay, 2024

表格数据任务的自动提示生成系统

An Automatic Prompt Generation System for Tabular Data Tasks

Ashlesha Akella, Abhijit Manatkar, Brij Chavda, Hima Patel

TL;DR通过创新自动生成系统，本文提出了两种新方法：一种基于强化学习的算法用于识别和排序与任务相关的列，另一种基于单元格相似性的方法用于增强少样例选择，该方法在 66 个数据集上经过了广泛测试，并使用两个不同的大型语言模型（Google flan-t5-xxl 和 Mixtral 8x7B）在数据填充、错误检测和实体匹配三个下游任务中展现出改进的性能。

Abstract

efficient processing of tabular data is important in various industries, especially when working with datasets containing a large number of columns. →

efficient processing tabular data auto-prompt generation large language models downstream tasks

发现论文，激发创造

大型语言模型的自动提示选择

自动选择给定输入的最佳提示，克服手动设计有效提示的挑战，通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器，并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。

Apr, 2024

大型语言模型生成合成表格数据的群组提示

通过使用大型语言模型（Large Language Models，LLMs）生成合成数据解决分类不平衡问题，在 CSV 格式中采用新颖的分组提示方法，利用 LLMs 的上下文学习能力生成满足目标数据集要求和特征的数据，并通过随机词替换策略提高处理单调分类值的准确性和代表性。在八个真实公共数据集上广泛验证我们的方法，取得了优于现有方法的下游分类和回归任务性能，同时保持特征间的相关性并提高标识的效率。该研究对于解决机器学习应用中关于表格数据生成和处理类别不平衡的关键挑战具有重要意义。

Apr, 2024

利用大型语言模型解决数据中心任务

通过挖掘 StackOverflow 帖子中的实际自然语言到代码任务来创建一个数据集，该论文提出了一种以聚类选择为基础的提示技术来确定在 LLMs 提示中包含多少数据以及选择哪些数据，并通过实验表明 LLM 的性能确实对提示中所传递的数据量敏感，对于输入表中存在大量语法变化的任务，聚类选择技术优于随机选择基准模型。

Feb, 2024

AutoPrompt: 使用自动生成的提示从语言模型中引导知识

利用自动化方法生成的 AutoPrompt，我们展示了预训练语言模型在自然语言推理、情感分析和关系提取方面的潜在能力，以及自动生成的提示方法是现有探究方法的一个可行的无参数替代方法。

Oct, 2020

增强大型语言模型的少样本文本到 SQL 能力：关于提示设计策略的研究

本文介绍了一种基于大型语言模型的 In-context learning 方法用于文本到 SQL 查询转换中，通过不同的演示选择策略和指令格式来提高 LLMs 性能。实验结果表明，该方法在 Spider 数据集上超出了最先进系统 2.5 个点，超出了最佳微调系统 5.1 个点。

May, 2023

长提示的自动工程化

我们研究了自动的长提示工程算法，证明了贪婪算法和遗传算法在搜索效率方面的优越性，并引入了两种利用搜索历史增强搜索算法效果的新技术。我们的研究结果表明，该算法在 Big Bench Hard 的八个任务中实现了平均 9.2% 的准确度提升，突显了自动化提示设计对充分利用 LLMs 的能力的重要性。

Nov, 2023

基于提示的少样本表格文本生成适配器

本文介绍了一种基于 Prompt-based Adapter (PA) 的方法，通过注入 prompt 模板对特定领域的知识和表格相关的表示进行数据增强，从而在少量样本情况下实现表格到文本的生成任务。相比之前的方法，在 Humans、Books 和 Songs 等三个数据集上，此方法表现更好。

Feb, 2023

带有提示计划和知识记忆的少样本数据表格转文本生成

本论文提出 PromptMize 框架，通过 prompt signal 和 knowledge adapter 对 pre-trained language models 进行 few-shot table-to-text generation。实验结果表明较之前的方法有极大优势。

Feb, 2023

Trompt：面向表格数据的更好深度神经网络探索

本文提出基于 Trompt 技术的神经网络体系结构，其中包括内在信息和样本变异学习两个方面，通过基准测试的结果显示 Trompt 的性能优于目前最先进的深度学习神经网络，且与基于树的模型相当。

May, 2023

释放大型语言模型在数据科学中预测表格任务的潜力

利用大型语言模型（LLMs）解决数据科学中与表格数据相关的预测任务的研究，通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练，研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用，并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。

Mar, 2024