TabPedia:利用概念协同的全面视觉表格理解
该研究论文探讨了针对表格数据的交叉表预训练的关键研究挑战,并提出了一种名为CT-BERT的新型框架,同时引入了对比学习和表格建模的目标,通过广泛的实证结果证明CT-BERT在监督和自监督设置下显著优于之前的方法。
Jul, 2023
通过对大型语言模型的研究,揭示了它们在解释和推理表格数据方面的能力,发现表格结构变化对模型性能的影响,提出了表格结构归一化的方法,并且比较了文本推理和符号推理,同时通过多个推理路径的聚合,取得了在WIKITABLEQUESTIONS任务上的最新成果。
Dec, 2023
研究通过不同的提示策略和数据格式来调查各种LLMs在解释表格数据方面的有效性。我们的分析涵盖了六个与表格相关的任务的基准,如问答和事实核查。我们首次评估了LLMs在基于图像的表格表示上的性能。具体而言,我们比较了五种基于文本和三种基于图像的表格表示,展示了表示和提示对LLM性能的影响。我们的研究揭示了LLMs在表格相关任务上有效使用的见解。
Feb, 2024
为了弥补现有评估数据集的不足,本研究构建了一个更具挑战性的数据集,并引入了一种新颖的问题,用于解决实体链接任务,即对单元格中的命名实体进行识别。最后,我们提出了一个提示框架,以评估新开发的大型语言模型在这一新的表格解释任务上的表现。
Mar, 2024
本研究提出了一种用于多模态大型语言模型的新型视觉表达方法——Visual Table,它提供了层次化的视觉场景文本描述,并包括了场景描述和多个以对象为中心的描述,涵盖了类别、属性和实例级别的知识。通过生成的视觉表格作为额外的视觉表示,我们的模型在多个基准测试中始终优于现有最先进的多模态大型语言模型。当视觉表格作为独立的视觉表示时,我们的模型可以与甚至超过基于CLIP视觉嵌入的最先进的多模态大型语言模型。
Mar, 2024
本文介绍了一个名为TableVQA-Bench的基准,用于表格视觉问答,该基准由现有的表格问答和表格结构识别数据集派生而来。通过使用样式表或提出的表格渲染系统,获取图像,并通过利用大型语言模型生成QA问题。我们在TableVQA-Bench上全面比较了不同的多模态大型语言模型的性能,其中GPT-4V在商业和开源的多模态大型语言模型中表现最高的准确率。研究结果表明,对于TableVQA而言,视觉输入的处理比文本输入更具挑战性。
Apr, 2024
本研究论文提出了一种新的问题,即多模态表格理解,其中模型需要根据给定的表格图像对各种与表格相关的请求生成正确的响应。为了促进模型的训练和评估,构建了一个名为MMTab的大规模数据集,该数据集涵盖了广泛的表格图像、指令和任务。在此基础上,研发了Table-LLaVA,一种通用的表格多模态大型语言模型(MLLM),在23个基准测试中,在保留内部和保留外部设置下,其性能明显优于最近的开源MLLM基准线。
Jun, 2024
本研究针对大型语言模型在工业场景下处理复杂表格数据的不足,提出了全面复杂的基准TableBench,以评估表格问答能力。通过创建TableLLM并进行大量实验,发现当前模型在满足实际需求方面仍有显著提升空间,尤其是与人类表现相比,最先进的模型GPT-4仅取得了中等分数。
Aug, 2024
本研究解决了现有表格问答数据集未能有效涵盖图文融合问题的缺陷,提出了新数据集MMTabQA,以评估AI模型在多模态结构化数据上的知识感知推理能力。实验表明,当前AI模型在整合和解读多重文本与图像输入方面面临显著挑战,为提升AI在分析多模态数据中的理解能力提供了重要基准。
Aug, 2024