MixCE: 通过混合正向和反向交叉熵训练自回归语言模型

ACLMay, 2023

MixCE: 通过混合正向和反向交叉熵训练自回归语言模型

MixCE: Training Autoregressive Language Models by Mixing Forward and Reverse Cross-Entropies

Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal...

TL;DR本文提出使用 MixCE 目标函数来学习自回归语言模型，该目标函数结合了前向交叉熵和反向交叉熵，以更好地生成类人文本。实验表明，在合成数据和真实数据上，使用 MixCE 训练的模型生成的文本比使用传统方法更好。

Abstract

autoregressive language models are trained by minimizing the cross-entropy of the model distribution Q relative to the data distribution P -- that is, minimizing the forward →

autoregressive language models cross-entropy maximum likelihood estimation mixce generated text

发现论文，激发创造

非自回归机器翻译的对齐交叉熵

本文提出了一种新的针对非自回归机器翻译模型的训练方法 aligned cross entropy (AXE)，该方法通过使用可微动态规划来实现最佳单调对齐，明显改善了条件掩码语言模型在主要 WMT 基准测试中的表现并创下了非自回归模型的新记录。

Apr, 2020

带有噪声标签的鲁棒学习的对称交叉熵

本文提出了一种名为 Symmetric cross entropy Learning 的深度神经网络学习方法，通过将 Cross Entropy 与 Reverse Cross Entropy 相结合，解决了在标签噪声存在下 CE 的过拟合与欠拟合问题，并在多个基准数据集和真实世界数据集实验中表现出优于其他现有方法的效果。

Aug, 2019

U-CE: 语义分割的不确定性感知交叉熵

利用动态预测不确定性的像素权重加权 U-CE（Uncertainty-aware Cross-Entropy loss）训练方法在两个基准数据集上优于传统 CE（cross-entropy loss）训练方法，提高了安全关键应用中更稳健可靠的分割模型的性能和可信度。

Jul, 2023

使用累计交叉熵损失的序列推荐有效高效训练

本文提出了一种基于序列的 Cumulative Cross-Entropy (CCE) 损失函数，在不使用负采样的情况下有效地训练了三种最先进的推荐模型，针对序列推荐系统中存在的缺陷，重点解决了序列信息利用率低的问题，并在五个基准数据集上进行了广泛的实验。

Jan, 2023

可微交叉熵方法

本文研究交叉熵方法在非凸优化中的应用，并提出了一种可微分的变体。在应用上，我们在合成能源预测任务和非凸连续控制中展示了其效果。特别是，我们展示了如何将最优的行动序列嵌入到一个低维空间中进行控制，从而通过策略优化来对基于 CEM 的控制器进行微调。

Sep, 2019

众包标签深度学习：交叉熵最小化、可识别性和正则化

本文提出了一种基于深度学习的端到端系统，利用嘈杂的众包标签，通过多个注释器特定的 label confusion 层和参数耦合的方式，与神经分类器同时学习标签纠正机制，并提出了 CCEM 的正则化变种，以增强目标模型参数的可识别性。

Jun, 2023

CLCE：优化学习融合的交叉熵和对比学习的改进方法

我们介绍了一种名为 CLCE 的新方法，将标签感知对比学习与 CE 相结合，通过有效的负样本挖掘增强性能，在少样本学习和迁移学习中使得 CLCE 显著优于 CE。

Feb, 2024

一种简单的对比学习目标，以缓解神经文本退化

我们提出了对比记号学习目标，它继承了交叉熵和不可能性训练的优点，同时避免了它们的局限性，通过在语言建模和开放域对话生成任务中的全面实验，我们发现所提出的对比记号目标可以使生成的文本重复性减少，提高了生成质量，达到了文本退化的最新性能水平。

May, 2022

通过提高预测正确性意识来优化校准

模型校准的新后续校准目标函数通过使用样本的转换版本来减少模型对错误预测样本的置信度并增加对正确预测样本的置信度，从而与现有技术在校准性能上达到相当竞争水平。

Apr, 2024

超越 MLE：文本生成的凸学习

基于凸函数的训练目标提供了一种新颖的方法，使得文本生成模型能够聚焦于高概率输出，同时增强了自回归模型与非自回归模型的生成能力。

Oct, 2023