提升一致性:当你的预训练语言模型未能足够关注时
本文提出了一种新的神经语言模型,它具备两个神经鉴别器,可以在句子层面(内聚性)和段落层面(连贯性)提供反馈信号,并且使用了一种称为负关键序列训练的简单而有效的策略梯度方法进行训练。结果表明,相对于基线(基于双向 MLE 训练的复发关注神经语言模型),我们的方法有效改善了模型表现。
Nov, 2018
该论文提出了一种基于预训练的长文本生成模型,通过预测句子间语义相似度和区分正常和洗牌句序的两个预训练目标来学习句子和语篇级别的表示,从而能够生成比现有技术更加连贯的文本。
May, 2021
本文系统地研究了预训练语言模型在故事生成任务中维持实体连贯性和一致性方面的能力,并提出了动态实体记忆的增强方法,旨在使用辅助实体相关性损失来指导读写实体记忆,以提高实体连贯性和一致性,同时还验证了自动评价指标与人工评价的相似度,从而提出的自动评价指标可以作为生成故事质量的良好指标。
Feb, 2022
本研究提出一种层次神经网络模型,通过多任务学习,同时预测文档层次的信息连贯得分和词级别的语法角色,利用两个任务之间的归纳转移,提高模型泛化能力,并在不同任务中达到了新的最优表现。
Jul, 2019
最近,随着大量的大型语言模型(LLMs)的出现,人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构,但对于 LLMs 来说,能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上,提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下,实现更长、更好的上下文理解。我们的实验在 XSum 上进行,与原始生成结果相比取得了显著改进。
Jul, 2023
本文研究利用基本的神经模型架构,结合对比学习中的负采样和硬负采样策略以及大规模全局负采样队列的增强效应,在任务独立测试集上进行一致性模型的评估和下游任务的改进。结果表明,增加负样本密度和使用全局负采样队列结合硬负采样可以显著地提高模型的性能表现。
Oct, 2021
该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型,发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力(例如可以从远处文本中复制的 Token),对于句子级别的预测任务没有任何帮助;并且长范围上下文对文学小说的帮助最大。
Sep, 2021
本文介绍了关于主题模型的研究,探讨了如何将 contextual embeddings 应用于 neural topic models,以提高主题模型的准确性和一致性,并且研究结果表明,对自然语言处理模型的改进将会对主题模型产生积极影响。
Apr, 2020