Jun, 2024

电子表格测评:迈向挑战现实世界电子表格操作

TL;DR通过从在线 Excel 论坛收集的 912 个真实问题和相关表格构建的 SpreadsheetBench 测试数据集,我们介绍了一种挑战性的电子表格处理基准,旨在使当前的大型语言模型真正融入电子表格用户的实际工作流程中。我们提出了一种更可靠的评估指标,并对不同的大型语言模型在单轮和多轮推断条件下进行综合评估,结果显示这个基准测试非常困难,并且是目前最先进模型和人类性能之间的差距。