通过输入设计评估和增强大型语言模型在表格上的结构理解能力

May, 2023

通过输入设计评估和增强大型语言模型在表格上的结构理解能力

Evaluating and Enhancing Structural Understanding Capabilities of Large Language Models on Tables via Input Designs

Yuan Sui, Mengyu Zhou, Mingjie Zhou, Shi Han, Dongmei Zhang

TL;DR本文旨在通过设计一个基准来评估 LLMs 的结构理解能力，包括七个挑战不同的任务，使用 self-augmentation 方法来提高 LLMs 的表格任务表现，提高了 TabFact、HybridQA、SQA、Feverous 和 ToTTo 等表格任务的性能。

Abstract

large language models (LLMs) are becoming attractive as few-shot reasoners to solve NL-related tasks. However, there is still much to be learned about how well LLMs understand structured data, such as tables. Whi

large language models structured data benchmark self-augmentation tabular tasks

发现论文，激发创造

用大型语言模型重新思考表格数据理解

通过对大型语言模型的研究，揭示了它们在解释和推理表格数据方面的能力，发现表格结构变化对模型性能的影响，提出了表格结构归一化的方法，并且比较了文本推理和符号推理，同时通过多个推理路径的聚合，取得了在 WIKITABLEQUESTIONS 任务上的最新成果。

Dec, 2023

表格处理的大语言模型：调查报告

通过对大型语言模型（LLMs）在表格任务方面的应用进行全面的概述，本文除了涵盖传统的表格问答（Table QA）和事实验证等领域，还强调了表格操作和高级表格数据分析等新方面，并介绍了 LLMs 中的指导调优、提示和基于代理的方法，同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。

Feb, 2024

大型语言模型是有效的表格到文本生成器、评估器和反馈提供者

本研究研究了大型语言模型在生成结构化表格数据文本时的性能，证明了大型语言模型在文本生成领域中的潜力和应用，并探讨了大型语言模型在文本生成质量自动评估及模型优化中的应用。

May, 2023

揭示大型语言模型在从表格中获取信息方面的局限性

本文介绍了一种可靠的用于表格信息检索（TabIS）的基准评估方式，揭示了大型语言模型（LLMs）在从表格中获取信息方面存在的限制和潜在挑战。

Jun, 2024

填补鸿沟：利用大型语言模型解读表格数据

大型语言模型在表格问答任务中的首次应用以增强模型对表格结构和内容的理解。

Aug, 2023

Struc-Bench：大型语言模型在生成复杂结构化数据方面真的很强吗？

评估了当前的大型语言模型在生成复杂结构化数据方面的能力，提出了一种结构感知微调方法来改善这种能力，并基于评估结果构建了模型能力图谱，揭示了大型语言模型在处理复杂结构化输出方面的弱点和未来工作的方向。

Sep, 2023

用于快速文本理解的结构化摘要生成

使用大型语言模型（LLMs）生成文本的结构化表示，通过提出有效的提示策略来解决当前模型在生成结构化输出方面的困难，并且通过使用表格和思维导图作为代表模态进行实证评估，结果表明与纯文本相比，使用表格和思维导图可以显著减少阅读理解时间而不会导致准确性降低。

Jan, 2024

TabSQLify：通过表格分解提高 LLMs 的推理能力

TabSQLify 是一种新颖的方法，通过利用文本转 SQL 生成将表格分解为较小且相关的子表，仅包含回答问题或验证陈述所需的基本信息，然后执行推理任务。在对四个具有挑战性的数据集进行全面评估的情况下，我们的方法展现出与依赖完整表格作为输入的流行方法相当或更好的性能。此外，我们的方法可以显著减少输入上下文的长度，使其在大规模表格推理应用中更具可扩展性和高效性。

Apr, 2024

释放大型语言模型在数据科学中预测表格任务的潜力

利用大型语言模型（LLMs）解决数据科学中与表格数据相关的预测任务的研究，通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练，研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用，并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。

Mar, 2024

关于表格问答的语言模型鲁棒性研究

通过评估 Large Language Models (LLMs) 在基于维基百科和财务报告的 Tabular Question Answering (TQA) 数据集上的表格理解能力，研究发现指令对性能有显著影响，新模型 Llama3 比之前的版本更具鲁棒性，但 WTQ 数据集存在数据污染和实际可靠性问题，需要通过结构感知自注意机制和更好处理特定领域的表格数据来改进 LLMs 的可靠性。

Jun, 2024