通过损失截断改善自然语言生成
文本摘要和简化是人工智能最常用的应用之一,然而,针对此类任务开发的模型往往容易出现幻觉,这可能是由于在不对齐的数据上进行训练。为了解决这个问题,我们提出了一种有效的方法,即损失截断(Loss Truncation)(Kang and Hashimoto,2020),通过修改标准的对数损失来自适应性地删除训练中的噪声示例。然而,我们发现单独使用损失截断在各种数据集上会产生相当多的幻觉实体。我们研究了真实和非真实示例之间潜在损失的行为,以理解和改进损失截断的性能。我们证明当噪声目标的 NLL 损失不如预期时,损失截断的性能会受到限制,并且发现实体之间的词级 NLL 提供更好的区分真实性的信号。然后我们利用此结果提出了一种细粒度的 NLL 损失和细粒度的数据清洗策略,观察到在某些数据集上幻觉减少的改进。
Mar, 2024
我们提出了一种名为 Error Norm Truncation (ENT) 的鲁棒性增强方法,通过截取噪声数据来更准确地评估数据质量,该方法考虑了非目标标记的分布,通过在语言建模、机器翻译和文本摘要等方面的综合实验证明,将 ENT 应用于文本生成模型可以提高生成质量并增强模型的鲁棒性。
Oct, 2023
本论文提出了一种简单且有效的数据增广策略 ——“cutoff”,并采用 Jensen-Shannon Divergence 一致性损失将这些增广样本融入到训练目标中,以有效提升人工智能在自然语言理解和生成,机器翻译等领域的表现。cutoff 方法与竞争对手相比表现相当甚至更好,并在 IWSLT2014 German-English 数据集上取得了最优性能。
Sep, 2020
我们发现,LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率,并且对于不太可能出现的序列更为严重,尽管使用更多的训练数据减轻了这种倾向,但这种低估行为还是存在,并且在目标分布熵较低时加剧了这种情况,并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。
Mar, 2022
通过理论证明截断采样方法能保证所有抽样的 Token 具有非零真实概率,同时基于模型中的 softmax 限制证明某些 Token 具有非零真实概率,我们开发了一种实验性的截断策略,并通过试验展示了其在低熵开放式文本生成中优于传统基于阈值的方法的性能,这些理论发现和试验结果推动了更具表现力的采样算法以展现大型语言模型的生成能力。
Oct, 2023
本研究提出了一种新的方法,使用目标域语言模型作为辨别器,为生成模型提供更丰富和更稳定的令牌级反馈,以便用于二进制分类器在 GAN-based 无监督风格转换系统中。该模型可使用从生成模型下的连续近似离散采样而训练,且相较于以前使用卷积神经网络(CNN)作为辨别器的先前工作,我们的方法在单词替换解密、情感修改和相关语言翻译三项任务上表现出了更好的性能,同时可以省略训练期间的对抗步骤,使过程更加稳定。
May, 2018
本文研究人工智能与人类合作生成高质量的大语言模型数据,使用两种方法促进文本生成的多样性和准确性,探究人类干预的效果并发现标签替换有助于提高模型的准确性,但移除超出用户领域兴趣或没有适当标签的实例不能提高模型准确性,需要更多人机协作探索。
Jun, 2023
使用 CRINGE 方法进行语言模型训练来减轻使用金标准和正例数据训练模型的问题,实验表明该方法对于安全生成、避免矛盾和开放域对话等任务均有效。
Nov, 2022