InstructExcel：一个 Excel 自然语言指令的基准

EMNLPOct, 2023

InstructExcel：一个 Excel 自然语言指令的基准

InstructExcel: A Benchmark for Natural Language Instruction in Excel

Justin Payan, Swaroop Mishra, Mukul Singh, Carina Negreanu, Christian Poelitz...

TL;DR该研究探讨了大型语言模型在解决 Excel 相关任务上的可行性，并引入了一个新的大规模基准测试，InstructExcel，该测试覆盖了多个 Excel 操作并包含超过 10,000 个样本。实验结果表明，GPT-4 相比 GPT-3.5 在此基准测试上表现较好，并且提供更多上下文示例和动态提示可以提高性能。

Abstract

With the evolution of large language models (llms) we can solve increasingly more complex NLP tasks across various domains, including spreadsheets. This work investigates whether →

large language models llms excel officescripts benchmark

发现论文，激发创造

电子表格测评：迈向挑战现实世界电子表格操作

通过从在线 Excel 论坛收集的 912 个真实问题和相关表格构建的 SpreadsheetBench 测试数据集，我们介绍了一种挑战性的电子表格处理基准，旨在使当前的大型语言模型真正融入电子表格用户的实际工作流程中。我们提出了一种更可靠的评估指标，并对不同的大型语言模型在单轮和多轮推断条件下进行综合评估，结果显示这个基准测试非常困难，并且是目前最先进模型和人类性能之间的差距。

Jun, 2024

自动生成和排序黑盒语言模型的自动指导

LLMs 可以通过遵循自然语言指令来完成各种任务，但是指令的质量会对 LLMs 的性能产生极大影响。本文提出了 Auto-Instruct 方法，通过生成多样化的候选指令并使用基于训练过的 575 个 NLP 任务的评分模型进行排序，自动提高 LLMs 的指令质量。在 118 个领域外任务的实验证明，Auto-Instruct 超越了人工编写的指令和现有 LLM 生成的指令的基线。此外，我们的方法还具有显著的泛化能力，即使对于没有被纳入其训练过程的其他 LLMs 也同样有效。

Oct, 2023

自然语言查询生成电子表格公式

介绍了一项名为 NL2Formula 的新型基准任务，通过提供自然语言查询作为输入，生成与电子表格表格相关的可执行公式，并构建了包含 70,799 个成对的自然语言查询和对应电子表格公式的全面数据集，验证了 fCoder 的有效性和优越性。

Feb, 2024

WikiTableEdit: 自然语言指令下的表格编辑基准

本研究通过 WikiTableEdit 数据集，评估大型语言模型在不规则结构的表格编辑任务中的表现，提出了使用自然语言指令进行表格编辑的挑战，并将数据集发布给社区推进相关研究。

Mar, 2024

大型语言模型是否能理解真实世界的复杂指令？

通过广泛的实验证明，我们提出了 CELLO—— 一个评估大型语言模型理解复杂指令能力的基准，包括八个复杂指令特征，并从现实场景中构建了一个全面的评估数据集。我们还建立了四个标准和相应的度量方法，以比较代表性的面向中文和面向英文模型在跟随复杂指令方面的表现。

Sep, 2023

BioInstruct: 大型语言模型用于生物医学自然语言处理的指令调整

LLMs 在自然语言处理任务中取得了巨大成功，但在生物医学领域的指令却只有少数发布。为了解决这个问题，我们介绍了 BioInstruct，一个包含超过 25000 个示例的定制任务特定指令数据集。通过使用 BioInstruct 数据集对 LLMs 进行微调，我们旨在优化 LLM 在生物医学自然语言处理（BioNLP）领域的性能。我们在 BioNLP 应用中对 LLaMA LLMs（1＆2，7B＆13B）进行了指令调优，并评估了它们的信息提取、问答和文本生成能力。我们还使用多任务学习原则评估了指令对模型性能的贡献。

Oct, 2023

应用于临床和生物医学任务的指导微调大型语言模型的零样本和少样本研究

评估四个最先进的面向指令的大型语言模型（ChatGPT、Flan-T5 UL2、Tk-Instruct 和 Alpaca）在 13 项真实世界的临床和生物医学自然语言处理（NLP）任务，如命名实体识别（NER）、问答（QA）、关系抽取（RE）等方面的表现。总体结果表明，评估的语言模型在大多数任务的零样本和少样本场景中已经接近最先进模型的性能，尤其在 QA 任务中表现出色，即使它们之前从未见过这些任务的示例。然而，我们观察到分类和 RE 任务的性能低于专门训练用于医学领域的模型（如 PubMedBERT）所能达到的水平。最后，我们注意到没有一个语言模型在所有研究任务中都胜过其他模型，某些模型在特定任务中更适合。

Jul, 2023

WizardLM：赋能大型语言模型遵循复杂指令

本文介绍了一种使用大型语言模型（LLM）替代人类创建指令数据的方法，通过使用我们提出的 Evol-Instruct，从一个初始指令集开始，逐步将其重写为更复杂的指令，然后将生成的所有指令数据混合起来，以调整 LLaMA 模型，获得我们所称的 WizardLM 模型。人类评估证明，Evol-Instruct 出产的指令优于人工创建的指令，尤其是在高复杂度方面，WizardLM 模型的输出被认为比 OpenAI ChatGPT 的输出更好。尽管 WizardLM 在某些方面仍落后于 ChatGPT，但我们的研究表明，用人工智能生成的指令进行微调是提升大型语言模型的一个有前途的方向。

Apr, 2023

SheetCopilot：利用大型语言模型将软件生产力提升到新的高度

提出了一种名为 SheetCopilot 的代理方案，该代理方案利用大型语言模型 (LLMs) 使用自然语言用户请求进行任务和控制电子表格，具有较高的自动化能力。经过测试，该代理方案正确完成了 44.3% 的任务，表现显著优于强代码生成基线。

May, 2023

TABLET: 学习表格数据指令

通过介绍具有指导逻辑和结构修改的指令的 20 个不同的类表数据集 Benchmarket，本研究探讨了自然语言指令对 LLMs 在解决类表数据问题中的影响。结果表明，上下文指令对 Flan-T5 11b 零射击 F1 性能平均提高 44％，对 ChatGPT 提高 13％；同时，我们发现 LLMs 在类表预测中忽略指令，并且即使有样例也不能正确预测特定实例。因此，该研究认为教学学习必须具备新的能力。

Apr, 2023