在总变差距离下调整语言生成模型

ICLRFeb, 2023

在总变差距离下调整语言生成模型

Tailoring Language Generation Models under Total Variation Distance

Haozhe Ji, Pei Ke, Zhipeng Hu, Rongsheng Zhang, Minlie Huang

TL;DR采用总变差距离 (TVD) 为目标函数以及 TaiLr 目标函数，可以改善自回归解码期间的文本退化问题，同时在各种文本生成任务中提高生成质量。

Abstract

The standard paradigm of neural language generation adopts maximum likelihood estimation (MLE) as the optimizing method. From a distributional view, MLE in fact minimizes the kullback-leibler divergence (KLD) bet

neural language generation kullback-leibler divergence autoregressive decoding total variation distance tailr objective

发现论文，激发创造

鉴别性总变差距离估计：生成数据的保真度稽核器

本文基于判别性方法提出了一种评估生成数据保真度的方法，利用总变差距离作为有效的度量。通过定量地表征两个分布分类的贝叶斯风险和它们的总变差距离的关系，实现了总变差距离的估计。特别地，本文建立了关于两个高斯分布总变差距离估计误差收敛速率的理论结果。通过选择特定的分类假设类，能够实现总变差距离的快速收敛速率。当两个高斯分布之间的分离度越大时，估计总变差距离的准确性越高，这一现象也通过广泛的模拟得到了实证验证。最后，我们将该判别性估计方法应用于使用 MNIST 数据集的合成图像数据的保真度排序。

May, 2024

分布式鲁棒性语言建模

本文研究语言模型在未知测试分布下的性能问题，并提出了一种基于分布鲁棒性的优化方法，称为主题条件风险值（topic CVaR），该方法能够在广泛的潜在测试分布下表现良好，并且在使用 Yelp 评论和新闻混合训练语言模型，并仅在评论数据上进行测试时，相对于标准最大似然估计法（MLE），实现了 5.5 点困惑度的降低。

Sep, 2019

使用总变差距离的黑盒差分隐私审计

我们提出了一种实用的方法，使用一个未在训练中暴露给模型的小规模保留数据集来审计差分隐私（DP）保证。我们的方法利用得分函数（如训练期间使用的损失函数）估计使用训练数据子集和保留数据集获得的得分之间的总变差（TV）距离，在了解底层 DP 训练算法的一些元信息的情况下，这些 TV 距离值可以转换为任意 δ 的（𝜖, δ）保证。我们表明，这些得分分布渐近地为底层训练算法的 DP 保证提供下界，但基于实用性的原因，我们对其进行了一次估计。我们指定导致高概率下界 DP 保证的条件。为了估计得分分布之间的 TV 距离，我们使用了基于直方图的简单密度估计方法。我们表明，TV 距离提供了一个非常接近最优鲁棒估计器，并具有一个误差率𝒪(k^(−1/3))，其中 k 是总样本数。基准数据集上的数值实验说明了我们方法的有效性，并展示了对于黑盒审计的改进。

Jun, 2024

一种基于随机优化的训练非线性神经网络的高阶全变差正则化方法

高度表达的参数模型，如深度神经网络，在建模复杂概念方面具有优势，但这种高度非线性模型的训练已知存在高风险的过度拟合问题。为了解决这个问题，本研究考虑第 k 阶总变差（k-TV）正则化，该正则化定义为被训练的参数模型的 k 阶导数的平方积分，对 k-TV 进行惩罚有望产生更平滑的函数，以避免过度拟合。虽然应用于一般参数模型的 k-TV 项由于积分而具有计算上的困难，但本研究提供了一种随机优化算法，可以在不进行显式数值积分的情况下高效训练具有 k-TV 正则化的一般模型。所提出的方法适用于结构任意的深度神经网络的训练，因为它只需使用简单的随机梯度下降算法和自动微分即可实现。我们的数值实验表明，采用 K-TV 正则化训练的神经网络比传统参数正则化训练的神经网络更 “弹性”。所提出的算法还可以扩展至神经网络（PINNs）的物理知识训练。

Aug, 2023

总变差距离估计像概率推断一样简单

通过图模型和概率推理，本论文建立了总变差距离的新连接，提出了一种有效的降维方法，实现了对有界树宽的贝叶斯网分布进行总变差距离的估计。

Sep, 2023

数理推理中的离群检测的轨迹波动

提出了一种基于轨迹的方法 TV score，通过使用轨迹的波动性进行数学推理中的离群数据检测，实验证明该方法在数学推理场景下优于传统算法，并可扩展到输出空间具有高密度特征的更多应用，如多项选择题。

May, 2024

一种带有转换总变差的图像分割模型

使用基于转换的 l1 正则化的转换总变差 (TTV)，提出了带模糊成员函数的 TTV 正则化 Mumford--Shah 模型进行图像分割，并通过交替方向乘子法设计了求解算法。数值实验表明，在图像分割中使用 TTV 比传统的 TV 和其他非凸 TV 变体更有效。

Jun, 2024

评估神经语言模型中的分布扭曲

我们发现，LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率，并且对于不太可能出现的序列更为严重，尽管使用更多的训练数据减轻了这种倾向，但这种低估行为还是存在，并且在目标分布熵较低时加剧了这种情况，并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。

Mar, 2022

一种基于分布式的控制文本生成方法

本文提出一种基于分布式方法的控制文本生成方案，旨在在单个形式框架中指定 “点对点” 和 “分布式” 约束，实现与初始 LM 分布 KL 散度最小的目标 LM 的训练。同时，基于 Energy-Based Model 表示确定最优目标分布。该方案通过自适应分布式模型改进了 Policy Gradient. 作者在实验中表明，该方案在满足约束方面较其它方法具有优势。实验结果还表明该方案应对了语言模型中 “偏见” 的问题。

Dec, 2020

密度估计与序列生成之间的偏差

通过比较几个密度估计器在五个机器翻译任务上的表现，我们发现，基于对数似然和 BLEU 的模型排名的相关性因比较的模型范围而异。

Feb, 2020