表格数据任务的自动提示生成系统
自动选择给定输入的最佳提示,克服手动设计有效提示的挑战,通过聚类训练数据、生成候选提示、生成输入 - 提示 - 输出数据集以训练评估器,并使用评估器在测试时选择最佳提示来实现兼顾通用性和特异性的方法。在零 - shot 问答数据集上显示出竞争性性能。
Apr, 2024
通过使用大型语言模型(Large Language Models,LLMs)生成合成数据解决分类不平衡问题,在 CSV 格式中采用新颖的分组提示方法,利用 LLMs 的上下文学习能力生成满足目标数据集要求和特征的数据,并通过随机词替换策略提高处理单调分类值的准确性和代表性。在八个真实公共数据集上广泛验证我们的方法,取得了优于现有方法的下游分类和回归任务性能,同时保持特征间的相关性并提高标识的效率。该研究对于解决机器学习应用中关于表格数据生成和处理类别不平衡的关键挑战具有重要意义。
Apr, 2024
通过挖掘 StackOverflow 帖子中的实际自然语言到代码任务来创建一个数据集,该论文提出了一种以聚类选择为基础的提示技术来确定在 LLMs 提示中包含多少数据以及选择哪些数据,并通过实验表明 LLM 的性能确实对提示中所传递的数据量敏感,对于输入表中存在大量语法变化的任务,聚类选择技术优于随机选择基准模型。
Feb, 2024
利用自动化方法生成的 AutoPrompt,我们展示了预训练语言模型在自然语言推理、情感分析和关系提取方面的潜在能力,以及自动生成的提示方法是现有探究方法的一个可行的无参数替代方法。
Oct, 2020
本文介绍了一种基于大型语言模型的 In-context learning 方法用于文本到 SQL 查询转换中,通过不同的演示选择策略和指令格式来提高 LLMs 性能。实验结果表明,该方法在 Spider 数据集上超出了最先进系统 2.5 个点,超出了最佳微调系统 5.1 个点。
May, 2023
我们研究了自动的长提示工程算法,证明了贪婪算法和遗传算法在搜索效率方面的优越性,并引入了两种利用搜索历史增强搜索算法效果的新技术。我们的研究结果表明,该算法在 Big Bench Hard 的八个任务中实现了平均 9.2% 的准确度提升,突显了自动化提示设计对充分利用 LLMs 的能力的重要性。
Nov, 2023
本文介绍了一种基于 Prompt-based Adapter (PA) 的方法,通过注入 prompt 模板对特定领域的知识和表格相关的表示进行数据增强,从而在少量样本情况下实现表格到文本的生成任务。相比之前的方法,在 Humans、Books 和 Songs 等三个数据集上,此方法表现更好。
Feb, 2023
本论文提出 PromptMize 框架,通过 prompt signal 和 knowledge adapter 对 pre-trained language models 进行 few-shot table-to-text generation。实验结果表明较之前的方法有极大优势。
Feb, 2023
本文提出基于 Trompt 技术的神经网络体系结构,其中包括内在信息和样本变异学习两个方面,通过基准测试的结果显示 Trompt 的性能优于目前最先进的深度学习神经网络,且与基于树的模型相当。
May, 2023
利用大型语言模型(LLMs)解决数据科学中与表格数据相关的预测任务的研究,通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练,研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用,并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。
Mar, 2024