SpreadsheetCoder:基于半结构化上下文的公式预测
通过学习和应用已存在于类似电子表格中的公式,使用类似于计算机视觉中的 “相似人脸识别” 的对比学习技术,我们开发了一种名为 Auto-Formula 的系统,可以准确预测用户想要在目标电子表格单元格中编写的公式。
Apr, 2024
介绍了一项名为 NL2Formula 的新型基准任务,通过提供自然语言查询作为输入,生成与电子表格表格相关的可执行公式,并构建了包含 70,799 个成对的自然语言查询和对应电子表格公式的全面数据集,验证了 fCoder 的有效性和优越性。
Feb, 2024
本研究提出了 FORTAP,通过利用海量电子表格公式语料库设计两个公式预训练任务,利用电子表格公式自然而然的强数值推理监督来实现表格预训练。研究结果表明,FORTAP 在单元格类型分类和公式预测任务上取得了最先进的结果,展示了数值推理预训练的巨大潜力。
Sep, 2021
TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构,可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验,我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时,我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性,可用于噪声和丢失形式的数据特征,提供更好的可解释性。最后,对于半监督场景,我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入,使 AUC 平均提升 2.1%。
Dec, 2020
FLAME 是一个基于 T5 的模型,通过在 Excel 公式中利用领域洞察力, using sketch deduplication,introduce an Excel-specific formula tokenizer and use domain-specific versions of masked span prediction and noisy auto-encoding aspretraining objectives,将模型数量大幅减少(60M parameters)和训练数据量两个数量级。FLAME 优于 Codex-Davinci(175B),Codex-Cushman(12B)和 CodeT5(220M)等较大的模型,可广泛应用于公式修复、公式自动完成以及语法重构等方面。
Jan, 2023
通过自我学习目标函数和预训练语言模型(如 BERT)对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务(例如回答关于表格的问题)的性能,但在没有任何相关文本的情况下处理表格的任务(例如填充缺失的单元格)时表现不佳。我们提出了一种简单的预训练目标(损坏单元格检测),该预训练目标只是从表格数据中学习,并且在一套基于表格的预测任务上达到了最先进的水平,从而超过了竞争方法。与其他方法不同,我们的模型(TABBIE)提供了所有表子结构(单元格、行和列)的嵌入,并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析,结果表明它可以理解复杂的表语义和数字趋势。
May, 2021
通过从在线 Excel 论坛收集的 912 个真实问题和相关表格构建的 SpreadsheetBench 测试数据集,我们介绍了一种挑战性的电子表格处理基准,旨在使当前的大型语言模型真正融入电子表格用户的实际工作流程中。我们提出了一种更可靠的评估指标,并对不同的大型语言模型在单轮和多轮推断条件下进行综合评估,结果显示这个基准测试非常困难,并且是目前最先进模型和人类性能之间的差距。
Jun, 2024
TableSense 是一种端到端的框架,利用卷积神经网络的成功应用于计算机视觉中,采用有效的单元格特征化方案,增强的卷积神经网络模型和有效的不确定性指标来引导基于主动学习的智能采样算法,使训练数据集高效构建,有效提高电子表格表格检测的准确度。
Jun, 2021
本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题,并开发了一种专用的表格数据增强策略来提高性能,实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。
Sep, 2022
本文提出了一种利用输入数据对候选程序程序进行语义重新排序,并结合高低温度混合的技术,能够有效提升在数据操作领域中使用大型语言模型生成正确程序的准确性。
May, 2023