电子表格LLM: 用于大型语言模型的电子表格编码
通过使用半结构化表格数据和表头,我们提出了第一个从表格语境中综合电子表格公式的方法,包括行和列格式的电子表格中的表格上下文。具体而言,我们提出了基于 BERT 的模型体系结构 SpreadsheetCoder,在大型电子表格数据集上对我们的模型进行了训练,并证明了其在表格上下文中表现出的高准确度。
Jun, 2021
FLAME是一个基于T5的模型,通过在Excel公式中利用领域洞察力, using sketch deduplication,introduce an Excel-specific formula tokenizer and use domain-specific versions of masked span prediction and noisy auto-encoding aspretraining objectives,将模型数量大幅减少(60M parameters)和训练数据量两个数量级。FLAME优于Codex-Davinci(175B),Codex-Cushman(12B)和CodeT5(220M)等较大的模型,可广泛应用于公式修复、公式自动完成以及语法重构等方面。
Jan, 2023
提出了一种名为SheetCopilot的代理方案,该代理方案利用大型语言模型 (LLMs) 使用自然语言用户请求进行任务和控制电子表格,具有较高的自动化能力。经过测试,该代理方案正确完成了44.3%的任务,表现显著优于强代码生成基线。
May, 2023
通过提出Tabula,使用语言模型结构的表格数据合成器,我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性,并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外,我们提出了一种令牌序列压缩策略,可显著减少训练时间同时保持合成数据的质量。实验证明,使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外,之前针对其他表格数据训练的Tabula模型可作为新的表格数据合成任务的优秀基础模型,而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明,Tabula相较于当前基于LLMs的最先进算法而言,平均每个时期减少46.2%的训练时间,并始终获得更高的合成数据效用。
Oct, 2023
该研究探讨了大型语言模型在解决 Excel 相关任务上的可行性,并引入了一个新的大规模基准测试,InstructExcel,该测试覆盖了多个 Excel 操作并包含超过10,000个样本。实验结果表明,GPT-4相比GPT-3.5在此基准测试上表现较好,并且提供更多上下文示例和动态提示可以提高性能。
Oct, 2023
FormaT5是一种基于Transformer的模型,能够根据目标表格和自然语言描述生成数据相关的条件格式规则。通过预测占位符并进行填充,FormaT5在优化条件格式规则的指导下,在各种真实场景中优于其他8种神经方法。
Oct, 2023
通过对大型语言模型(LLMs)在表格任务方面的应用进行全面的概述,本文除了涵盖传统的表格问答(Table QA)和事实验证等领域,还强调了表格操作和高级表格数据分析等新方面,并介绍了LLMs中的指导调优、提示和基于代理的方法,同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。
Feb, 2024
TableLLM是一个具有130亿参数的强大的大型语言模型,专门用于高效处理嵌入在文件或电子表格中的表格数据操作任务,适用于实际的办公场景。我们提出了一种远程监督方法用于训练,包括推理过程扩展策略,有效帮助训练语言模型理解推理模式,以及交叉验证策略,确保自动生成的数据的质量。通过自行构建的评估管道和基准测试来评估TableLLM的性能,可以处理文件和电子表格格式,并突出显示了TableLLM与各种现有的通用型和面向表格数据的语言模型相比的优势。我们已公开发布了模型检查点、源代码、基准测试和用于用户交互的网络应用程序。
Mar, 2024
本文通过在电子表格理解方面探索视觉语言模型的能力,提出了三个自我学习挑战并伴随相应的评估方法,全面评估了VLMs在光学字符识别、空间感知和视觉格式识别等方面的能力。同时,还提出三种电子表格到图像的设定,以更细致地探索VLMs,其中包括列宽调整、样式变化和地址扩充。研究结果表明,VLMs在OCR方面表现出有前途的能力,但由于单元格遗漏和错位,结果不尽人意;同时,它们在空间感知和格式识别技巧方面明显不足,为了增强VLMs对电子表格数据的理解能力,我们提出的方法可以在各种设置下生成大量的电子表格-图像对,值得进一步探索。
May, 2024
通过从在线Excel论坛收集的912个真实问题和相关表格构建的SpreadsheetBench测试数据集,我们介绍了一种挑战性的电子表格处理基准,旨在使当前的大型语言模型真正融入电子表格用户的实际工作流程中。我们提出了一种更可靠的评估指标,并对不同的大型语言模型在单轮和多轮推断条件下进行综合评估,结果显示这个基准测试非常困难,并且是目前最先进模型和人类性能之间的差距。
Jun, 2024