SpreadsheetCoder：基于半结构化上下文的公式预测

ICMLJun, 2021

SpreadsheetCoder：基于半结构化上下文的公式预测

SpreadsheetCoder: Formula Prediction from Semi-structured Context

Xinyun Chen, Petros Maniatis, Rishabh Singh, Charles Sutton, Hanjun Dai...

TL;DR通过使用半结构化表格数据和表头，我们提出了第一个从表格语境中综合电子表格公式的方法，包括行和列格式的电子表格中的表格上下文。具体而言，我们提出了基于 BERT 的模型体系结构 SpreadsheetCoder，在大型电子表格数据集上对我们的模型进行了训练，并证明了其在表格上下文中表现出的高准确度。

Abstract

spreadsheet formula prediction has been an important program synthesis problem with many real-world applications. Previous works typically utilize input-output examples as the specification for spreadsheet

spreadsheet formula synthesis tabular context spreadsheetcoder bert

发现论文，激发创造

Auto-Formula: 使用对比学习的表格表示推荐电子表格中的公式

通过学习和应用已存在于类似电子表格中的公式，使用类似于计算机视觉中的 “相似人脸识别” 的对比学习技术，我们开发了一种名为 Auto-Formula 的系统，可以准确预测用户想要在目标电子表格单元格中编写的公式。

Apr, 2024

自然语言查询生成电子表格公式

介绍了一项名为 NL2Formula 的新型基准任务，通过提供自然语言查询作为输入，生成与电子表格表格相关的可执行公式，并构建了包含 70,799 个成对的自然语言查询和对应电子表格公式的全面数据集，验证了 fCoder 的有效性和优越性。

Feb, 2024

FORTAP: 使用公式进行数值推理感知表格预训练

本研究提出了 FORTAP，通过利用海量电子表格公式语料库设计两个公式预训练任务，利用电子表格公式自然而然的强数值推理监督来实现表格预训练。研究结果表明，FORTAP 在单元格类型分类和公式预测任务上取得了最先进的结果，展示了数值推理预训练的巨大潜力。

Sep, 2021

TabTransformer：使用上下文嵌入建模表格数据

TabTransformer 是一个基于自注意力变换器 (Transformer) 的深度表格数据建模架构，可应用于监督和半监督学习。经过在 15 个公开数据集上的广泛实验，我们展示了 TabTransformer 在表格数据的深度学习方法中的超越和匹配效果。同时，我们演示了从 TabTransformer 学习的环境嵌入具有高度的鲁棒性，可用于噪声和丢失形式的数据特征，提供更好的可解释性。最后，对于半监督场景，我们开发了一种无监督的预训练过程来学习数据驱动的上下文嵌入，使 AUC 平均提升 2.1%。

Dec, 2020

FLAME：适用于电子表格公式的小型语言模型

FLAME 是一个基于 T5 的模型，通过在 Excel 公式中利用领域洞察力， using sketch deduplication，introduce an Excel-specific formula tokenizer and use domain-specific versions of masked span prediction and noisy auto-encoding aspretraining objectives，将模型数量大幅减少（60M parameters）和训练数据量两个数量级。FLAME 优于 Codex-Davinci（175B），Codex-Cushman（12B）和 CodeT5（220M）等较大的模型，可广泛应用于公式修复、公式自动完成以及语法重构等方面。

Jan, 2023

TABBIE：表格数据的预训练表示

通过自我学习目标函数和预训练语言模型（如 BERT）对表格和相关文本进行联合建模的现有工作可以提高涉及配对表格和文本的任务（例如回答关于表格的问题）的性能，但在没有任何相关文本的情况下处理表格的任务（例如填充缺失的单元格）时表现不佳。我们提出了一种简单的预训练目标（损坏单元格检测），该预训练目标只是从表格数据中学习，并且在一套基于表格的预测任务上达到了最先进的水平，从而超过了竞争方法。与其他方法不同，我们的模型（TABBIE）提供了所有表子结构（单元格、行和列）的嵌入，并且所需的计算时间也要少得多。我们对模型的学习单元格、列和行的表示进行了质量分析，结果表明它可以理解复杂的表语义和数字趋势。

May, 2021

电子表格测评：迈向挑战现实世界电子表格操作

通过从在线 Excel 论坛收集的 912 个真实问题和相关表格构建的 SpreadsheetBench 测试数据集，我们介绍了一种挑战性的电子表格处理基准，旨在使当前的大型语言模型真正融入电子表格用户的实际工作流程中。我们提出了一种更可靠的评估指标，并对不同的大型语言模型在单轮和多轮推断条件下进行综合评估，结果显示这个基准测试非常困难，并且是目前最先进模型和人类性能之间的差距。

Jun, 2024

TableSense 用卷积神经网络进行电子表格识别

TableSense 是一种端到端的框架，利用卷积神经网络的成功应用于计算机视觉中，采用有效的单元格特征化方案，增强的卷积神经网络模型和有效的不确定性指标来引导基于主动学习的智能采样算法，使训练数据集高效构建，有效提高电子表格表格检测的准确度。

Jun, 2021

使用表格语言模型在工业表格中进行命名实体识别

本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题，并开发了一种专用的表格数据增强策略来提高性能，实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。

Sep, 2022

从自然语言到代码：利用数据进行程序合成

本文提出了一种利用输入数据对候选程序程序进行语义重新排序，并结合高低温度混合的技术，能够有效提升在数据操作领域中使用大型语言模型生成正确程序的准确性。

May, 2023