Aug, 2024

TableBench:一个全面复杂的表格问答基准

TL;DR本研究针对大型语言模型在工业场景下处理复杂表格数据的不足,提出了全面复杂的基准TableBench,以评估表格问答能力。通过创建TableLLM并进行大量实验,发现当前模型在满足实际需求方面仍有显著提升空间,尤其是与人类表现相比,最先进的模型GPT-4仅取得了中等分数。