使用频率感知交叉熵损失改善神经应答多样性

Feb, 2019

使用频率感知交叉熵损失改善神经应答多样性

Improving Neural Response Diversity with Frequency-Aware Cross-Entropy Loss

Shaojie Jiang, Pengjie Ren, Christof Monz, Maarten de Rijke

TL;DR本文针对 Seq2Seq 模型中存在的响应生成多样性不足的问题，探究了预测分布中过度自信的连接，提出了一种基于词频加权的损失函数 —— 面向词频的交叉熵损失（FACE）函数，实验证明，该函数能够显著提高现有 Seq2Seq 响应生成方法的多样性。

Abstract

Sequence-to-Sequence (Seq2Seq) models have achieved encouraging performance on the dialogue response generation task. However, existing Seq2Seq-based response generation methods suffer from a low-diversity problem

seq2seq models dialogue response generation low-diversity problem loss function frequency-aware cross-entropy

发现论文，激发创造

神经对话生成的另一个多样性促进目标函数

本文提出了一种名为 ITF 的新目标函数，旨在解决 MLE 在生成回复方面多样性不足的问题，该函数可以有利于生成罕见单词，而不是最常见的回复中的单词，取得了不错的实验结果。

Nov, 2018

使用累计交叉熵损失的序列推荐有效高效训练

本文提出了一种基于序列的 Cumulative Cross-Entropy (CCE) 损失函数，在不使用负采样的情况下有效地训练了三种最先进的推荐模型，针对序列推荐系统中存在的缺陷，重点解决了序列信息利用率低的问题，并在五个基准数据集上进行了广泛的实验。

Jan, 2023

序列识别的聚合交叉熵

本文提出一种新方法聚合交叉熵（ACE）用于序列识别，其性能与 CTC 和注意力机制不相上下，但实现速度更快、存储要求更低、更便于使用，并能直接应用于 2D 预测及计数问题。

Apr, 2019

U-CE: 语义分割的不确定性感知交叉熵

利用动态预测不确定性的像素权重加权 U-CE（Uncertainty-aware Cross-Entropy loss）训练方法在两个基准数据集上优于传统 CE（cross-entropy loss）训练方法，提高了安全关键应用中更稳健可靠的分割模型的性能和可信度。

Jul, 2023

F^2-Softmax: 通过频率因式分解 Softmax 实现神经文本生成的多样性

提出了两种新方法 F^2-Softmax 和 MefMax 以解决文本生成中标记分布不平衡的问题，实验表明这两种方法在提高生成文本的多样性和质量方面具有优越性。

Sep, 2020

数据失衡的 NLP 任务的 Dice Loss

本研究提出了一种新的 dice loss 网络训练目标替代 cross-entropy 目标，以解决 NLP 任务中数据失衡的问题，并且在多项任务中均取得了显著的性能提升。

Nov, 2019

神经响应生成中联合优化多样性和相关性

本文提出 SpaceFusion 模型，通过新型规则项，整合了序列到序列模型和自编码器模型的潜在空间，作了多样性和相关性的联合优化从而提高对话模型输出的质量。实验数据表明，与强基线相比，我们的方法在多样性和相关性方面都取得了极大改进。

Feb, 2019

改进视觉问答模型的收敛和准确性的简单损失函数

本研究提出软交叉熵损失函数来解决在视觉问答过程中模型训练精度和损失准确度之间的差异问题，实验证明该方法可提升模型精度高达 1.6%.

Aug, 2017

SimCE：简化协同过滤中的交叉熵损失

学习目标对协同过滤系统至关重要，贝叶斯个性化排名（BPR）损失广泛用于学习信息丰富的骨干。然而，BPR 往往收敛较慢且局部最优解不理想，部分原因是因为它仅考虑每个正样本一个负样本，忽视了其他未观察到项目的潜在影响。为了解决这个问题，最近提出的采样 Softmax 交叉熵（SSM）将一个正样本与多个负样本进行比较，从而提高了性能。我们的综合实验证实，推荐系统在训练过程中始终受益于多个负样本。此外，我们引入了一种简化的采样 Softmax 交叉熵损失（SimCE），该损失使用其上界简化了 SSM。我们在 12 个基准数据集上进行验证，使用 MF 和 LightGCN 骨干，结果显示 SimCE 在性能上明显优于 BPR 和 SSM。

Jun, 2024

信息熵损失对生成式语言模型学习困难的缓解

通过引入信息熵损失函数来解决文本语料中常见和难以学习的标记的不平衡性，改进了生成式语言模型在下游任务中的性能表现。

Oct, 2023