大型语言模型可自动为少样本表格学习生成特征

Apr, 2024

大型语言模型可自动为少样本表格学习生成特征

Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning

Sungwon Han, Jinsung Yoon, Sercan O Arik, Tomas Pfister

TL;DR提出了一种新颖的上下文学习框架 FealtLLM，利用大型语言模型作为特征工程师，生成适合表格预测的优化输入数据集，在推断阶段使用生成的特征和简单的下游机器学习模型 (如线性回归) 来推断分类的可能性，从而实现高性能的小样本学习。FeatLLM 框架只使用简单的预测模型和推断时发现的特征，相较于现有的基于大型语言模型的方法，FeatLLM 可以消除每个样本都需要查询大型语言模型的需求和克服提示大小的限制，并且仅需要对大型语言模型的 API 进行访问。在多个来自不同领域的表格数据集上的实验证明，FeatLLM 生成高质量的规则，明显 (平均达到 10%) 优于 TabLLM 和 STUNT 等替代方法。

Abstract

large language models (LLMs), with their remarkable ability to tackle challenging and unseen reasoning problems, hold immense potential for tabular learning, that is vital for many real-world applications. In this paper, we propose a novel in-context learning framework, →

large language models featllm tabular learning few-shot learning high-quality rules

发现论文，激发创造

大型语言模型是少量样本的表格推理器

本文旨在研究大型语言模型在表格相关任务中的能力，发现当结合 “思维链” 提示时，大型语言模型可以在只有 1 个样本的情况下达到与某些 SotA 模型相当的表现。

Oct, 2022

释放大型语言模型在数据科学中预测表格任务的潜力

利用大型语言模型（LLMs）解决数据科学中与表格数据相关的预测任务的研究，通过创建一个包含注解指令的综合数据集来对 LLM 进行大规模训练，研究应用训练好的模型在零样本预测、少样本预测和上下文学习场景中的实际应用，并通过实验证明该方法在表格智能方面相较于现有基准有显著改进。

Mar, 2024

TableLLM：在真实办公场景中让 LLMs 能够操作表格数据

TableLLM 是一个具有 130 亿参数的强大的大型语言模型，专门用于高效处理嵌入在文件或电子表格中的表格数据操作任务，适用于实际的办公场景。我们提出了一种远程监督方法用于训练，包括推理过程扩展策略，有效帮助训练语言模型理解推理模式，以及交叉验证策略，确保自动生成的数据的质量。通过自行构建的评估管道和基准测试来评估 TableLLM 的性能，可以处理文件和电子表格格式，并突出显示了 TableLLM 与各种现有的通用型和面向表格数据的语言模型相比的优势。我们已公开发布了模型检查点、源代码、基准测试和用于用户交互的网络应用程序。

Mar, 2024

表格处理的大语言模型：调查报告

通过对大型语言模型（LLMs）在表格任务方面的应用进行全面的概述，本文除了涵盖传统的表格问答（Table QA）和事实验证等领域，还强调了表格操作和高级表格数据分析等新方面，并介绍了 LLMs 中的指导调优、提示和基于代理的方法，同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。

Feb, 2024

利用 LLMs 进行表格数据的异常检测

利用大型语言模型（LLMs）来检测表格异常，并展示了预训练的 LLMs 在零样本批量级异常检测方面的效果，同时提出了一种简单但有效的数据生成过程和端到端微调策略来对齐 LLMs 检测真实异常的潜力。

Jun, 2024

大型语言模型是有效的表格到文本生成器、评估器和反馈提供者

本研究研究了大型语言模型在生成结构化表格数据文本时的性能，证明了大型语言模型在文本生成领域中的潜力和应用，并探讨了大型语言模型在文本生成质量自动评估及模型优化中的应用。

May, 2023

通过 LLMs 与决策树推理进行优化的表格数据特征生成

提出了一种基于大型语言模型（LLMs）的新的表格学习框架，称为优化列特征生成器与决策树推理（OCTree）。使用 LLMs 的推理能力，通过不手动指定搜索空间并提供基于语言的推理信息，将过去的实验作为反馈来改进迭代的规则，从而找到好的特征生成规则。实证结果表明，这一简单框架在各种表格基准上始终提高了各种预测模型的性能，优于竞争的自动特征工程方法。

Jun, 2024

对大型语言模型在表格数据预测中的公平性调查

通过一系列的实验，我们发现大型语言模型在表格预测任务中往往会继承社会偏见，这从根源上影响了它们的公平性，并且通过标签反转等方法可以显著减少这些偏见。

Oct, 2023

用大型语言模型重新思考表格数据理解

通过对大型语言模型的研究，揭示了它们在解释和推理表格数据方面的能力，发现表格结构变化对模型性能的影响，提出了表格结构归一化的方法，并且比较了文本推理和符号推理，同时通过多个推理路径的聚合，取得了在 WIKITABLEQUESTIONS 任务上的最新成果。

Dec, 2023

为了提升少样本分类的表格数据序列化

利用大型语言模型（LLMs）在表格数据分类中的整合进行了研究，并引入三种新的序列化技术，包括显著的 LaTeX 序列化方法。该方法显著提升了 LLMs 在处理领域特定数据集方面的性能，具有内存效率和充分利用复杂数据结构的能力，并通过包括特征组合和重要性在内的广泛实验，证明了我们工作在准确性和效率方面的优越性。

Dec, 2023