揭示大型语言模型在从表格中获取信息方面的局限性
通过对大型语言模型(LLMs)在表格任务方面的应用进行全面的概述,本文除了涵盖传统的表格问答(Table QA)和事实验证等领域,还强调了表格操作和高级表格数据分析等新方面,并介绍了 LLMs 中的指导调优、提示和基于代理的方法,同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。
Feb, 2024
本文旨在通过设计一个基准来评估 LLMs 的结构理解能力,包括七个挑战不同的任务,使用 self-augmentation 方法来提高 LLMs 的表格任务表现,提高了 TabFact、HybridQA、SQA、Feverous 和 ToTTo 等表格任务的性能。
May, 2023
研究通过不同的提示策略和数据格式来调查各种 LLMs 在解释表格数据方面的有效性。我们的分析涵盖了六个与表格相关的任务的基准,如问答和事实核查。我们首次评估了 LLMs 在基于图像的表格表示上的性能。具体而言,我们比较了五种基于文本和三种基于图像的表格表示,展示了表示和提示对 LLM 性能的影响。我们的研究揭示了 LLMs 在表格相关任务上有效使用的见解。
Feb, 2024
通过对大型语言模型的研究,揭示了它们在解释和推理表格数据方面的能力,发现表格结构变化对模型性能的影响,提出了表格结构归一化的方法,并且比较了文本推理和符号推理,同时通过多个推理路径的聚合,取得了在 WIKITABLEQUESTIONS 任务上的最新成果。
Dec, 2023
TabSQLify 是一种新颖的方法,通过利用文本转 SQL 生成将表格分解为较小且相关的子表,仅包含回答问题或验证陈述所需的基本信息,然后执行推理任务。在对四个具有挑战性的数据集进行全面评估的情况下,我们的方法展现出与依赖完整表格作为输入的流行方法相当或更好的性能。此外,我们的方法可以显著减少输入上下文的长度,使其在大规模表格推理应用中更具可扩展性和高效性。
Apr, 2024
通过评估 Large Language Models (LLMs) 在基于维基百科和财务报告的 Tabular Question Answering (TQA) 数据集上的表格理解能力,研究发现指令对性能有显著影响,新模型 Llama3 比之前的版本更具鲁棒性,但 WTQ 数据集存在数据污染和实际可靠性问题,需要通过结构感知自注意机制和更好处理特定领域的表格数据来改进 LLMs 的可靠性。
Jun, 2024
使用大型语言模型 (LLMs) 改善表格推理性能是当前主流方法。本文分析了在 LLMs 时代中提升表格推理性能的主要技术以及 LLMs 相较于之前方法的优势,并提供了改进现有方法和扩展实际应用的研究方向,以激发未来表格推理研究的进一步发展。
Feb, 2024
本论文探讨了语言模型是否能够支持从复杂表格中进行成本有效的信息提取,并引入了基于架构驱动信息提取的新任务,使用 LLMs 将表格数据转换成遵循人类撰写的架构的结构化记录,并发展了一种 InstrucTE 方法来实现表格抽取,该方法仅需要人工构建的抽取架构,并具备错误恢复策略及高性能,证实了使用更紧凑的抽取模型进行抽取的可行性。
May, 2023
本研究研究了大型语言模型在生成结构化表格数据文本时的性能,证明了大型语言模型在文本生成领域中的潜力和应用,并探讨了大型语言模型在文本生成质量自动评估及模型优化中的应用。
May, 2023