P-TA：使用近端策略优化增强大型语言模型下的表格数据增强技术

ACLJun, 2024

P-TA：使用近端策略优化增强大型语言模型下的表格数据增强技术

P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models

Shuo Yang, Chenchen Yuan, Yao Rong, Felix Steinbauer, Gjergji Kasneci

TL;DR利用近似策略优化（PPO）引导大语言模型（LLM）来增强表格特征的概率分布，从而使 LLM 成为用于合成表格数据的生成器，在三个真实数据集上通过实验证明，该方法相对于最先进技术提高了约 4％的合成模型准确性。

Abstract

A multitude of industries depend on accurate and reasonable tabular data augmentation for their business processes. Contemporary methodologies in generating tabular data revolve around utilizing Generative Adversarial Networks (GAN) or fine-tuning Large Language Models (LLM). However, GAN-based approaches are documented to produce samples with common-sense e

tabular data augmentation generative adversarial networks (gan)large language models (llm)proximal policy optimization (ppo)synthetic data generation

发现论文，激发创造

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023

MALLM-GAN：用于合成表格数据的多智能体大型语言模型生成对抗网络

在大数据时代，访问丰富的数据来推动研究进展至关重要，然而在医疗领域，这种数据往往由于隐私问题或高成本而无法获得。生成合成数据可以解决这个问题，但现有模型通常需要大量数据进行训练，与我们解决数据稀缺的目标相矛盾。为了应对这一挑战，我们提出了一个新的框架，通过利用大型语言模型（LLMs）作为推广对抗网络（GAN）的优化器，并将数据生成过程作为上下文信息进行了改进，显著提高了在小样本情况下生成合成表格数据的质量。我们在公共和私有数据集上的实验结果表明，我们的模型在生成更高质量的合成数据用于后续任务时，保持真实数据的隐私方面优于几个最先进的模型。

Jun, 2024

成对近邻策略优化：利用相对反馈进行 LLM 对齐

通过相对反馈，本文介绍了一种更简单而有效的方法，以相对反馈将大型语言模型对齐到人类的偏好。

Sep, 2023

使用大型语言模型的差分隐私表格数据合成

使用预训练的大型语言模型（LLMs），DP-LLMTGen 引入了一种新的框架来进行差分私有表格数据合成，通过微调过程模拟敏感数据集并生成多样的合成数据，有效地解决了实际挑战。

Jun, 2024

以近端策略优化实现经济高效的预训练语言模型微调，群众外包是否让你的银行雪上加霜？

我们提出了一种自监督文本排名方法，通过概率抽样、文本排名和聚类算法，以及奖励模型，优化生成策略，从而大大降低了 ChatGPT 等语言模型的训练成本，并证明了语言模型的自我纠正潜力。

Feb, 2024

基于惩罚性最优传递网络的数据表生成建模

通过提供理论和实证的证据，我们的研究提出了一种名为 POTNet 的生成深度神经网络，它基于一个新颖、稳健、可解释的边际惩罚 Wasserstein 损失函数（MPW）来有效地建模包含类别和连续特征的表格数据，并能在子特征集合上进行条件建模，从而实现了在大规模合成数据生成过程中与最先进的生成模型相比数个数量级的加速。

Feb, 2024

通过细粒度监督对齐大型语言模型

通过细粒度的分词级监督来增强预训练的大规模语言模型（LLM）的对齐，该方法可提高 LLM 性能的绝对改善率高达 5.1％，与传统的 PPO 模型相比，训练集是通过最小编辑来改善标准奖励模型数据集中较不受欢迎的回答，以确保在必要的地方进行改动，同时保留大部分原始内容。

Jun, 2024

TabuLa: 利用语言模型进行表格数据合成

通过提出 Tabula，使用语言模型结构的表格数据合成器，我们揭示了使用为自然语言处理设计的预训练语言模型在表格数据合成领域的内在局限性，并通过一种令人满意的基础模型开展了针对表格数据合成的专用基础模型的研发。此外，我们提出了一种令牌序列压缩策略，可显著减少训练时间同时保持合成数据的质量。实验证明，使用语言模型结构而不加载训练有素的模型权重可以获得更好的表格数据合成起始模型。此外，之前针对其他表格数据训练的 Tabula 模型可作为新的表格数据合成任务的优秀基础模型，而且该令牌序列压缩方法可大幅降低模型的训练时间。结果表明，Tabula 相较于当前基于 LLMs 的最先进算法而言，平均每个时期减少 46.2% 的训练时间，并始终获得更高的合成数据效用。

Oct, 2023

衡量和减轻表格生成模型的隐私风险

合成数据和生成模型在隐私保护的数据共享解决方案中迅速崛起，并通过在表格综合机上实施全面的实证分析，突出了五种最先进表格综合机的实用 - 隐私权衡，提出了一个新的差分隐私表格潜在扩散模型，称为 DP-TLDM，能够在保持可比较的隐私风险水平的同时，显著提高合成数据的实用性。

Mar, 2024

使用 GPT-4 初探表格数据的零 - shot 隐私 - 效用权衡

我们研究了大型语言模型（LLMs），特别是 GPT-4，在涉及表格数据中隐私与效用之间的权衡场景中的应用。我们的方法是通过将表格数据转化为文本格式，然后以无监督的方式包含精确的消除敏感信息的指示来激活 GPT-4。我们的主要目标是以一种使得现有的机器学习模型无法准确推断私密特征，但仍能准确推断与效用相关的属性的方式消除表格数据。我们探索了各种消除敏感信息的方法。值得注意的是，我们发现这种相对简单的方法所产生的性能与用于管理隐私和效用权衡的更复杂的对抗优化方法相当。此外，虽然这种指示能够成功地隐藏私密特征，使得现有的机器学习模型无法检测到，但我们观察到仅仅依靠这种隐藏并不能满足一系列的公正性指标。尽管如此，我们的研究表明 LLMs 在满足这些公正性指标方面具有潜在的有效性，我们的一些实验结果与已建立的对抗优化技术所达到的结果相一致。

Apr, 2024