提升一致性：当你的预训练语言模型未能足够关注时

ACLOct, 2021

提升一致性：当你的预训练语言模型未能足够关注时

Coherence boosting: When your pretrained language model is not paying enough attention

Nikolay Malkin, Zhen Wang, Nebojsa Jojic

TL;DR本文研究了大语言模型在长范围语义连贯性方面的问题，提出一种名为 “连贯提升” 的推理方法，能够提高语言模型对长内容的关注，通过分布分析证明了连贯提升的优点，并发现其在零样本自然语言处理任务中也能产生性能提升，而无需额外的训练。

Abstract

Long-range semantic coherence remains a challenge in automatic language generation and understanding. We demonstrate that large language models have insufficiently learned the effect of distant words on next-token prediction. We present →

automatic language generation large language models coherence boosting zero-shot nlp tasks state-of-the-art models

发现论文，激发创造

朝向连贯且凝聚的长文本生成

本文提出了一种新的神经语言模型，它具备两个神经鉴别器，可以在句子层面（内聚性）和段落层面（连贯性）提供反馈信号，并且使用了一种称为负关键序列训练的简单而有效的策略梯度方法进行训练。结果表明，相对于基线（基于双向 MLE 训练的复发关注神经语言模型），我们的方法有效改善了模型表现。

Nov, 2018

通过建模句子级和语篇级连贯性进行长文本生成

该论文提出了一种基于预训练的长文本生成模型，通过预测句子间语义相似度和区分正常和洗牌句序的两个预训练目标来学习句子和语篇级别的表示，从而能够生成比现有技术更加连贯的文本。

May, 2021

叙事生成中实体使用的连贯和一致性探索

本文系统地研究了预训练语言模型在故事生成任务中维持实体连贯性和一致性方面的能力，并提出了动态实体记忆的增强方法，旨在使用辅助实体相关性损失来指导读写实体记忆，以提高实体连贯性和一致性，同时还验证了自动评价指标与人工评价的相似度，从而提出的自动评价指标可以作为生成故事质量的良好指标。

Feb, 2022

一种用于连贯性建模的多任务学习方法

本研究提出一种层次神经网络模型，通过多任务学习，同时预测文档层次的信息连贯得分和词级别的语法角色，利用两个任务之间的归纳转移，提高模型泛化能力，并在不同任务中达到了新的最优表现。

Jul, 2019

提升模型的上下文理解能力与更长更好的语境

最近，随着大量的大型语言模型（LLMs）的出现，人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构，但对于 LLMs 来说，能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上，提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下，实现更长、更好的上下文理解。我们的实验在 XSum 上进行，与原始生成结果相比取得了显著改进。

Jul, 2023

重新思考自监督目标，用于可泛化的连贯建模

本文研究利用基本的神经模型架构，结合对比学习中的负采样和硬负采样策略以及大规模全局负采样队列的增强效应，在任务独立测试集上进行一致性模型的评估和下游任务的改进。结果表明，增加负样本密度和使用全局负采样队列结合硬负采样可以显著地提高模型的性能表现。

Oct, 2021

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

统一的神经连贯模型

本文介绍了一种采用句子语法、句际连贯关系和全局连贯模式的统一一致性模型，该模型在局部和全局判别任务上表现良好，优于现有模型，并建立了新的最新技术成果。

Sep, 2019

预训练是热门话题：上下文化文档嵌入提高了主题相关性

本文介绍了关于主题模型的研究，探讨了如何将 contextual embeddings 应用于 neural topic models，以提高主题模型的准确性和一致性，并且研究结果表明，对自然语言处理模型的改进将会对主题模型产生积极影响。

Apr, 2020

跨领域可传递的神经连贯性模型

本研究探索了一种本地判别神经模型来提高文本的一致性，这样可以实现更广泛的领域泛化，从而显著提高了文章的可读性。

May, 2019