自然语言查询生成电子表格公式
该研究探讨了大型语言模型在解决 Excel 相关任务上的可行性,并引入了一个新的大规模基准测试,InstructExcel,该测试覆盖了多个 Excel 操作并包含超过 10,000 个样本。实验结果表明,GPT-4 相比 GPT-3.5 在此基准测试上表现较好,并且提供更多上下文示例和动态提示可以提高性能。
Oct, 2023
通过学习和应用已存在于类似电子表格中的公式,使用类似于计算机视觉中的 “相似人脸识别” 的对比学习技术,我们开发了一种名为 Auto-Formula 的系统,可以准确预测用户想要在目标电子表格单元格中编写的公式。
Apr, 2024
通过使用半结构化表格数据和表头,我们提出了第一个从表格语境中综合电子表格公式的方法,包括行和列格式的电子表格中的表格上下文。具体而言,我们提出了基于 BERT 的模型体系结构 SpreadsheetCoder,在大型电子表格数据集上对我们的模型进行了训练,并证明了其在表格上下文中表现出的高准确度。
Jun, 2021
FLAME 是一个基于 T5 的模型,通过在 Excel 公式中利用领域洞察力, using sketch deduplication,introduce an Excel-specific formula tokenizer and use domain-specific versions of masked span prediction and noisy auto-encoding aspretraining objectives,将模型数量大幅减少(60M parameters)和训练数据量两个数量级。FLAME 优于 Codex-Davinci(175B),Codex-Cushman(12B)和 CodeT5(220M)等较大的模型,可广泛应用于公式修复、公式自动完成以及语法重构等方面。
Jan, 2023
本研究提出了 FORTAP,通过利用海量电子表格公式语料库设计两个公式预训练任务,利用电子表格公式自然而然的强数值推理监督来实现表格预训练。研究结果表明,FORTAP 在单元格类型分类和公式预测任务上取得了最先进的结果,展示了数值推理预训练的巨大潜力。
Sep, 2021
本论文的主要研究方向是解决神经机器翻译数学公式的问题,特别是涉及到模糊表示语言和明确内容语言之间的翻译,论文采用卷积序列到序列网络来翻译 LaTeX 和 Mathematica,达到了 95.1% 和 90.7% 的准确匹配。
May, 2023
通过从在线 Excel 论坛收集的 912 个真实问题和相关表格构建的 SpreadsheetBench 测试数据集,我们介绍了一种挑战性的电子表格处理基准,旨在使当前的大型语言模型真正融入电子表格用户的实际工作流程中。我们提出了一种更可靠的评估指标,并对不同的大型语言模型在单轮和多轮推断条件下进行综合评估,结果显示这个基准测试非常困难,并且是目前最先进模型和人类性能之间的差距。
Jun, 2024
本文介绍了我们团队在 Natural Language for Optimization (NL4Opt) NeurIPS 2022 比赛中的获奖方案,分别采用了命名实体识别和生成模型等方法,成功解决了对应的子任务,并在比赛中获得了不错的成绩。
Feb, 2023
这篇研究论文介绍了一种名为 NLQxform 的问答系统,它基于变压器模型 BART,可以通过自然语言界面访问学术知识图谱,实现复杂查询意图的转换和信息检索。在 Scholarly QALD Challenge 中,NLQxform 在 QA 任务上获得 0.85 的 F1 分数,并在排行榜上名列第一,展示了系统的竞争力。
Nov, 2023