将神经文本退化与曝光偏差相关联

EMNLPSep, 2021

将神经文本退化与曝光偏差相关联

Relating Neural Text Degeneration to Exposure Bias

Ting-Rui Chiang, Yun-Nung Chen

TL;DR本文研究神经语言生成领域的两个问题：曝光偏差和文本退化，定量和定性分析了退化发生前的误差并探讨了它们对 GPT-2 文本退化的影响，结果表明这种文本退化有一部分原因是曝光偏差导致的，同时阐述了误差增强的自我强化机制。

Abstract

This work focuses on relating two mysteries in neural-based text generation: exposure bias, and text degeneration. Despite the long time s

neural-based text generation exposure bias text degeneration pre-trained language model hidden states

发现论文，激发创造

通过退化模型学习多样化神经文本生成技术

通过训练两个模型来防止神经语言模型生成单一和重复的文本，从而增强多样性和信息量，实验证明这种方法的有效性。

Sep, 2023

重复输入重复输出：从数据角度理解神经文本退化

我们通过数据角度的初步研究发现，训练数据中重复出现的词语与文本退化问题之间存在强烈的相关性，通过有选择地消除训练数据中重复词语的注意力，可以显著减少退化现象，并且惩罚训练数据中的重复部分是解决退化问题的一个普遍而基本的因素。

Oct, 2023

神经文本退化的好奇案例

本研究发现人类文本和机器生成文本的分布存在差异，在相同的神经语言模型下使用不同的解码策略可以显著影响文本质量，提出了一种基于动态核心采样的方法来提高生成文本的多样性和流畅性。

Apr, 2019

曝光偏差的重要性：语言生成中误差累积的模仿学习视角

本文探讨语言生成模型存在的问题，阐述了模型脆弱性产生的原因，并从模仿学习的角度分析暴露偏差。作者证实了该假设，通过分析误差积累的原因和导致质量低下的积累。

Apr, 2022

评估语言模型中神经毒性退化的 RealToxicityPrompts

该研究通过创建 RealToxicityPrompts 数据集，使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力，指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。

Sep, 2020

自然语言生成模型训练中的表示退化问题

本文研究了神经网络训练自然语言生成任务模型时的 “表示退化问题”，提出一种新的正则化方法来解决这个问题，并在语言建模和机器翻译任务上实验验证了其性能优于基准算法。

Jul, 2019

GPT-D: 通过有意识地降低人工神经语言模型的能力引发与老年痴呆相关的语言异常

该研究提出了一种新颖的方法，利用 Transformer DL 模型（GPT-2）和与其人为降级版本（GPT-D）之间的困惑度比率，在语言学健康和损伤个体的语言上获得了接近于最先进性能的技术，也演示了通过 GPT-D 产生与 AD 相关的语言异常特征的能力，这对于更好地理解生成神经语言模型的内部工作机制、它们产生的语言以及痴呆症对人类语音和语言特征的不良影响是一步。

Mar, 2022

生成中的泛化问题：更深入地探究曝光偏差

本文研究了曝光偏差这一问题，提出了无条件生成作为基本标准，结合隐变量建模和强化学习的探索方法，解决了真实和生成上下文的处理问题，并在语言建模和变分自编码任务中验证了模型的泛化能力。

Oct, 2019

模型痴呆：生成数据使模型遗忘

介绍了大型语言模型的发展并探讨了模型生成内容在训练中产生的影响，它导致原始内容分布的尾部消失并称之为模型失忆现象 (model dementia)，此现象在各种生成模型中普遍存在，为了利用从网络中爬取的大规模数据所获得的收益，我们必须认真对待它。

May, 2023

文本生成中的国籍偏见

这篇论文分析了语言模型中的国籍偏见，探讨了 GPT-2 生成的故事中如何突出现有的有关国籍的社会偏见，并使用敏感性分析探讨了互联网用户数量和国家经济状况对故事情绪的影响。同时还研究了对抗触发的去偏置方法，研究结果表明，GPT-2 在对互联网用户较少的国家存在显著的偏见，而对抗触发方法可以有效地降低偏见。

Feb, 2023