自然语言查询生成电子表格公式

ACLFeb, 2024

NL2Formula: Generating Spreadsheet Formulas from Natural Language Queries

Wei Zhao, Zhitao Hou, Siyuan Wu, Yan Gao, Haoyu Dong...

TL;DR介绍了一项名为 NL2Formula 的新型基准任务，通过提供自然语言查询作为输入，生成与电子表格表格相关的可执行公式，并构建了包含 70,799 个成对的自然语言查询和对应电子表格公式的全面数据集，验证了 fCoder 的有效性和优越性。

Abstract

Writing formulas on spreadsheets, such as Microsoft Excel and Google Sheets, is a widespread practice among users performing data analysis. However, crafting formulas on spreadsheets remains a tedious and error-prone task for many end-users, particularly when dealing with complex operations. To alleviate the burden associated with writing →

spreadsheet formulas nl2formula benchmark task sequence-to-sequence fcoder

发现论文，激发创造

InstructExcel：一个 Excel 自然语言指令的基准

该研究探讨了大型语言模型在解决 Excel 相关任务上的可行性，并引入了一个新的大规模基准测试，InstructExcel，该测试覆盖了多个 Excel 操作并包含超过 10,000 个样本。实验结果表明，GPT-4 相比 GPT-3.5 在此基准测试上表现较好，并且提供更多上下文示例和动态提示可以提高性能。

Oct, 2023

Auto-Formula: 使用对比学习的表格表示推荐电子表格中的公式

通过学习和应用已存在于类似电子表格中的公式，使用类似于计算机视觉中的 “相似人脸识别” 的对比学习技术，我们开发了一种名为 Auto-Formula 的系统，可以准确预测用户想要在目标电子表格单元格中编写的公式。

Apr, 2024

Logic2Text: 从逻辑形式生成高保真自然语言

本文旨在从逻辑形式出发，探讨基于结构化数据的自然语言生成，在介绍新数据集的同时，实验了多个生成模型并分析了它们的表现。

Apr, 2020

SpreadsheetCoder：基于半结构化上下文的公式预测

通过使用半结构化表格数据和表头，我们提出了第一个从表格语境中综合电子表格公式的方法，包括行和列格式的电子表格中的表格上下文。具体而言，我们提出了基于 BERT 的模型体系结构 SpreadsheetCoder，在大型电子表格数据集上对我们的模型进行了训练，并证明了其在表格上下文中表现出的高准确度。

Jun, 2021

FLAME：适用于电子表格公式的小型语言模型

FLAME 是一个基于 T5 的模型，通过在 Excel 公式中利用领域洞察力， using sketch deduplication，introduce an Excel-specific formula tokenizer and use domain-specific versions of masked span prediction and noisy auto-encoding aspretraining objectives，将模型数量大幅减少（60M parameters）和训练数据量两个数量级。FLAME 优于 Codex-Davinci（175B），Codex-Cushman（12B）和 CodeT5（220M）等较大的模型，可广泛应用于公式修复、公式自动完成以及语法重构等方面。

Jan, 2023

FORTAP: 使用公式进行数值推理感知表格预训练

本研究提出了 FORTAP，通过利用海量电子表格公式语料库设计两个公式预训练任务，利用电子表格公式自然而然的强数值推理监督来实现表格预训练。研究结果表明，FORTAP 在单元格类型分类和公式预测任务上取得了最先进的结果，展示了数值推理预训练的巨大潜力。

Sep, 2021

数学公式的神经机器翻译

本论文的主要研究方向是解决神经机器翻译数学公式的问题，特别是涉及到模糊表示语言和明确内容语言之间的翻译，论文采用卷积序列到序列网络来翻译 LaTeX 和 Mathematica，达到了 95.1% 和 90.7% 的准确匹配。

May, 2023

电子表格测评：迈向挑战现实世界电子表格操作

通过从在线 Excel 论坛收集的 912 个真实问题和相关表格构建的 SpreadsheetBench 测试数据集，我们介绍了一种挑战性的电子表格处理基准，旨在使当前的大型语言模型真正融入电子表格用户的实际工作流程中。我们提出了一种更可靠的评估指标，并对不同的大型语言模型在单轮和多轮推断条件下进行综合评估，结果显示这个基准测试非常困难，并且是目前最先进模型和人类性能之间的差距。

Jun, 2024

一种自动化制定优化问题的新方法

本文介绍了我们团队在 Natural Language for Optimization (NL4Opt) NeurIPS 2022 比赛中的获奖方案，分别采用了命名实体识别和生成模型等方法，成功解决了对应的子任务，并在比赛中获得了不错的成绩。

Feb, 2023

NLQxform: 基于语言模型的问题到 SPARQL 的转换器

这篇研究论文介绍了一种名为 NLQxform 的问答系统，它基于变压器模型 BART，可以通过自然语言界面访问学术知识图谱，实现复杂查询意图的转换和信息检索。在 Scholarly QALD Challenge 中，NLQxform 在 QA 任务上获得 0.85 的 F1 分数，并在排行榜上名列第一，展示了系统的竞争力。

Nov, 2023