TableBench:一个全面复杂的表格问答基准
TableQAKit 是第一个专门设计用于 TableQA 的综合工具包,它提供了丰富的 TableQA 数据集、集成了流行的方法和大型语言模型,并且在一些数据集上实现了新的最佳性能,同时还提供了一个基于大型语言模型的 TableQA 基准测试。
Oct, 2023
通过开发Text2Analysis基准和创新的注释方法,我们展示了在表格数据分析领域中大规模语言模型的潜力,以推动进一步的研究机会。
Dec, 2023
通过对大型语言模型(LLMs)在表格任务方面的应用进行全面的概述,本文除了涵盖传统的表格问答(Table QA)和事实验证等领域,还强调了表格操作和高级表格数据分析等新方面,并介绍了LLMs中的指导调优、提示和基于代理的方法,同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。
Feb, 2024
使用大型语言模型 (LLMs) 改善表格推理性能是当前主流方法。本文分析了在LLMs时代中提升表格推理性能的主要技术以及LLMs相较于之前方法的优势,并提供了改进现有方法和扩展实际应用的研究方向,以激发未来表格推理研究的进一步发展。
Feb, 2024
TabSQLify是一种新颖的方法,通过利用文本转SQL生成将表格分解为较小且相关的子表,仅包含回答问题或验证陈述所需的基本信息,然后执行推理任务。在对四个具有挑战性的数据集进行全面评估的情况下,我们的方法展现出与依赖完整表格作为输入的流行方法相当或更好的性能。此外,我们的方法可以显著减少输入上下文的长度,使其在大规模表格推理应用中更具可扩展性和高效性。
Apr, 2024
本文介绍了一个名为TableVQA-Bench的基准,用于表格视觉问答,该基准由现有的表格问答和表格结构识别数据集派生而来。通过使用样式表或提出的表格渲染系统,获取图像,并通过利用大型语言模型生成QA问题。我们在TableVQA-Bench上全面比较了不同的多模态大型语言模型的性能,其中GPT-4V在商业和开源的多模态大型语言模型中表现最高的准确率。研究结果表明,对于TableVQA而言,视觉输入的处理比文本输入更具挑战性。
Apr, 2024
TANQ是第一个需要从多个源中提取信息构建表格作为答案的开放领域问题回答数据集,我们在开放、正式和闭卷的场景中使用顶尖的语言模型进行评测,最好的基准模型GPT4的综合F1得分为29.1,相较于人类表现差了19.7个百分点,我们分析了在这个任务中所需的不同技能以及模型生成答案的常见失败,指出TANQ是一个具有许多挑战的复杂任务。
May, 2024
通过评估Large Language Models (LLMs)在基于维基百科和财务报告的Tabular Question Answering (TQA)数据集上的表格理解能力,研究发现指令对性能有显著影响,新模型Llama3比之前的版本更具鲁棒性,但WTQ数据集存在数据污染和实际可靠性问题,需要通过结构感知自注意机制和更好处理特定领域的表格数据来改进LLMs的可靠性。
Jun, 2024
本研究解决了大型语言模型在理解表格结构和进行精确数值推理方面的局限,提出了一种集成了专业工具的工具增强框架TART。实验表明,TART在数据处理精度和推理过程清晰度方面显著优于现有方法,尤其是在与CodeLlama结合时,准确率达到了闭源模型GPT-3.5-turbo的90%。
Sep, 2024