WikiTableEdit: 自然语言指令下的表格编辑基准
通过对大型语言模型(LLMs)在表格任务方面的应用进行全面的概述,本文除了涵盖传统的表格问答(Table QA)和事实验证等领域,还强调了表格操作和高级表格数据分析等新方面,并介绍了 LLMs 中的指导调优、提示和基于代理的方法,同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。
Feb, 2024
通过介绍具有指导逻辑和结构修改的指令的 20 个不同的类表数据集 Benchmarket,本研究探讨了自然语言指令对 LLMs 在解决类表数据问题中的影响。结果表明,上下文指令对 Flan-T5 11b 零射击 F1 性能平均提高 44%,对 ChatGPT 提高 13%;同时,我们发现 LLMs 在类表预测中忽略指令,并且即使有样例也不能正确预测特定实例。因此,该研究认为教学学习必须具备新的能力。
Apr, 2023
大规模语言模型的知识编辑可以提供一种有效的解决方案,以改变模型的行为而不会对整体性能产生负面影响。为了解决当前方法在任务上的有限泛化能力的问题,我们采取了第一步来分析知识编辑中的多任务泛化问题。具体而言,我们开发了一种基于指令的编辑技术,称为 InstructEdit,它通过简单的指令同时促进编辑器对不同任务性能的适应。通过仅使用一个统一的编辑器为每个大规模语言模型,我们经验证明 InstructEdit 可以提高编辑器的控制能力,在多任务编辑设置中可平均提高 14.86%的可靠性。此外,涉及未见任务的实验表明 InstructEdit 始终优于先前的强基准。为了进一步研究基于指令的知识编辑的基本机制,我们分析了编辑梯度方向的主要成分,发现指令可以帮助控制具有更强的无法覆盖的泛化能力的优化方向。代码和数据集将在此 https URL 中提供。
Feb, 2024
TableLLM 是一个具有 130 亿参数的强大的大型语言模型,专门用于高效处理嵌入在文件或电子表格中的表格数据操作任务,适用于实际的办公场景。我们提出了一种远程监督方法用于训练,包括推理过程扩展策略,有效帮助训练语言模型理解推理模式,以及交叉验证策略,确保自动生成的数据的质量。通过自行构建的评估管道和基准测试来评估 TableLLM 的性能,可以处理文件和电子表格格式,并突出显示了 TableLLM 与各种现有的通用型和面向表格数据的语言模型相比的优势。我们已公开发布了模型检查点、源代码、基准测试和用于用户交互的网络应用程序。
Mar, 2024
通过一个仔细设计的代码编辑任务基准以及结合自然语言指令的训练集,我们评估了几个最先进的大型语言模型,并揭示了现有开源和闭源模型之间的显著差距。同时,我们展示了通过精细调优开源代码语言模型可以显著提高其代码编辑能力。
Dec, 2023
我们的研究展示了 LLM 在自动标注大量不同表格数据方面的潜力,通过 SQL 程序翻译、输入 - 目标列标注以及神经表格分类器的性能评估等研究,证明了 LLM 方法可以有效地自动标注大量表格数据并为各种具体的研究目标生成多样化的注释。
Jun, 2024
本论文探讨了语言模型是否能够支持从复杂表格中进行成本有效的信息提取,并引入了基于架构驱动信息提取的新任务,使用 LLMs 将表格数据转换成遵循人类撰写的架构的结构化记录,并发展了一种 InstrucTE 方法来实现表格抽取,该方法仅需要人工构建的抽取架构,并具备错误恢复策略及高性能,证实了使用更紧凑的抽取模型进行抽取的可行性。
May, 2023
本研究使用大型语言模型(LLMs)和 InstructCoder 数据集,探索用户指令下的代码编辑,涵盖评论插入、代码优化和代码重构等多个隐含任务。实验证明,在 InstructCoder 数据集上对开源 LLMs 进行精细调整,能够大多数情况下正确地编辑代码,展现了前所未有的代码编辑性能水平。
Oct, 2023
利用大型语言模型(LLMs)解决数据科学中与表格数据相关的预测任务的研究,通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练,研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用,并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。
Mar, 2024
为了弥补现有评估数据集的不足,本研究构建了一个更具挑战性的数据集,并引入了一种新颖的问题,用于解决实体链接任务,即对单元格中的命名实体进行识别。最后,我们提出了一个提示框架,以评估新开发的大型语言模型在这一新的表格解释任务上的表现。
Mar, 2024