序列控制文本生成

Jan, 2023

Sequentially Controlled Text Generation

Alexander Spangher, Xinyu Hua, Yao Ming, Nanyun Peng

TL;DR本文研究 GPT-2 在生成长度较长的文档时缺乏结构性的问题，提出了一种新的控制文本生成任务 — 顺序控制文本生成，并确定了一个数据集 NewsDiscourse 作为该任务的起点。通过测试不同程度的结构意识，表明具有更高的结构意识可以提高控制准确性、语法合理性、连贯性和主题性，并接近于人类的写作业绩。

Abstract

While gpt-2 generates sentences that are remarkably human-like, longer documents can ramble and do not follow human-like writing structure. We study the problem of imposing structure on long-range text. We propose a novel →

gpt-2 controlled text generation newsdiscourse structural awareness human-level writing performance

发现论文，激发创造

Facts2Story：通过关键事实控制文本生成

该研究提出了一个基于自然语言的控制生成任务，可将一系列事实扩展为更长的叙述，并通过引入人类评估指标和大型训练数据集的方法评估了三种方法，证明了自回归的单向语言模型如 GPT2 的生成流畅度更好，但很难遵循所请求的事实，提出了一个基于计划和填空模型的解决方案（使用精细调整的 XLNet），其生成流畅度有竞争力，同时遵循所请求的内容。

Dec, 2020

ChatGPT 与人类撰写文本：可控文本摘要与句子风格转移的洞见

本文研究 ChatGPT 在不同目标受众和写作风格下的表现，发现相比人类撰写的文章，ChatGPT 生成的样本在词汇类型分布等方面存在差异，并可能出现事实错误或幻觉。

Jun, 2023

计划 - 生成：通过计划控制数据到文本的生成

本研究提出了一种 Plan-then-Generate（PlanGen）框架，以改善神经数据生成文本模型的可控性，并通过两个基准数据集 ToTTo 和 WebNLG 进行了广泛的实验和分析，结果显示，我们的模型能够控制生成输出的句内和句间结构，而且与先前的最先进方法进行了实证比较，显示出我们的模型提高了生成质量以及人机评估的输出多样性。

Aug, 2021

Instruct-SCTG：通过指导实现序列控制文本生成

本文介绍了 Instruct-SCTG 框架，利用调谐指令的语言模型在精细调整和零 - shot 设置中生成结构连贯的文章，通过自然语言指令对生成的文本进行段落层次的控制，并引入了一种模糊度量衡来衡量篇章发散程度。实验结果验证了该框架在新闻和食谱等领域中建立篇章结构的的卓越性能，即通过自动化和人工评估的双重验证。

Dec, 2023

变分序列计划数据生成技术

本论文考虑数据到文本生成的任务，着重提出了一种生成长篇文章的神经模型，增加了计划组件来组织高层次信息，在结构化变分模型的帮助下逐步推理出潜在计划，从而生成文本。在 RotoWire 和 MLB 两个数据到文本基准测试中，本模型表现优于基准模型，并且在训练数据有限的情况下具有较高的样本效率。

Feb, 2022

朝向连贯且凝聚的长文本生成

本文提出了一种新的神经语言模型，它具备两个神经鉴别器，可以在句子层面（内聚性）和段落层面（连贯性）提供反馈信号，并且使用了一种称为负关键序列训练的简单而有效的策略梯度方法进行训练。结果表明，相对于基线（基于双向 MLE 训练的复发关注神经语言模型），我们的方法有效改善了模型表现。

Nov, 2018

通过建模句子级和语篇级连贯性进行长文本生成

该论文提出了一种基于预训练的长文本生成模型，通过预测句子间语义相似度和区分正常和洗牌句序的两个预训练目标来学习句子和语篇级别的表示，从而能够生成比现有技术更加连贯的文本。

May, 2021

SeqXGPT：句子级别的人工智能生成文本检测

通过综合包含由人类编写的句子和由大型语言模型改编的句子的文档，本文首次介绍了一个句子级别的人工智能生成文本检测挑战，并提出了一种基于序列 X（检查）GPT 的新方法，利用白盒大型语言模型的对数概率列表作为句子级别人工智能生成文本检测的特征。实验证明，我们的方法不仅在句子级和文档级人工智能生成文本检测挑战中显著超越基准方法，而且具有强大的泛化能力。

Oct, 2023

面向开放域创造力和公平性的可控文本生成

本文介绍了一些控制文本生成的方法以增强语言生成模型的创造力和公平性，包括层级生成和约束解码，并应用于故事、诗歌、比喻语言的创意生成，以及减少生成模型的社会偏见。

Sep, 2022

预训练语言模型渐进式生成长文本

该论文提出了一种通过逐步完善领域特定的关键词，并在多个阶段逐步把它们转换为完整段落生成文本的简单而有效的方法，该方法利用了预先训练的大规模语言模型，在质量和样本效率方面显着优于仅仅在小语料库上微调的大型语言模型和其他规划 - 生成方法。

Jun, 2020