通过训练两个模型来防止神经语言模型生成单一和重复的文本,从而增强多样性和信息量,实验证明这种方法的有效性。
Sep, 2023
我们通过数据角度的初步研究发现,训练数据中重复出现的词语与文本退化问题之间存在强烈的相关性,通过有选择地消除训练数据中重复词语的注意力,可以显著减少退化现象,并且惩罚训练数据中的重复部分是解决退化问题的一个普遍而基本的因素。
Oct, 2023
本研究发现人类文本和机器生成文本的分布存在差异,在相同的神经语言模型下使用不同的解码策略可以显著影响文本质量,提出了一种基于动态核心采样的方法来提高生成文本的多样性和流畅性。
Apr, 2019
本文探讨语言生成模型存在的问题,阐述了模型脆弱性产生的原因,并从模仿学习的角度分析暴露偏差。作者证实了该假设,通过分析误差积累的原因和导致质量低下的积累。
Apr, 2022
该研究通过创建 RealToxicityPrompts 数据集,使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力,指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。
Sep, 2020
本文研究了神经网络训练自然语言生成任务模型时的 “表示退化问题”,提出一种新的正则化方法来解决这个问题,并在语言建模和机器翻译任务上实验验证了其性能优于基准算法。
Jul, 2019
该研究提出了一种新颖的方法,利用 Transformer DL 模型(GPT-2)和与其人为降级版本(GPT-D)之间的困惑度比率,在语言学健康和损伤个体的语言上获得了接近于最先进性能的技术,也演示了通过 GPT-D 产生与 AD 相关的语言异常特征的能力,这对于更好地理解生成神经语言模型的内部工作机制、它们产生的语言以及痴呆症对人类语音和语言特征的不良影响是一步。
Mar, 2022
本文研究了曝光偏差这一问题,提出了无条件生成作为基本标准,结合隐变量建模和强化学习的探索方法,解决了真实和生成上下文的处理问题,并在语言建模和变分自编码任务中验证了模型的泛化能力。
Oct, 2019
介绍了大型语言模型的发展并探讨了模型生成内容在训练中产生的影响,它导致原始内容分布的尾部消失并称之为模型失忆现象 (model dementia),此现象在各种生成模型中普遍存在,为了利用从网络中爬取的大规模数据所获得的收益,我们必须认真对待它。
May, 2023
这篇论文分析了语言模型中的国籍偏见,探讨了 GPT-2 生成的故事中如何突出现有的有关国籍的社会偏见,并使用敏感性分析探讨了互联网用户数量和国家经济状况对故事情绪的影响。同时还研究了对抗触发的去偏置方法,研究结果表明,GPT-2 在对互联网用户较少的国家存在显著的偏见,而对抗触发方法可以有效地降低偏见。
Feb, 2023