预训练语言生成模型的控制焦点

Mar, 2022

Controlling the Focus of Pretrained Language Generation Models

Jiabao Ji, Yoon Kim, James Glass, Tianxing He

TL;DR该研究旨在开发一种控制机制，使用户可以选择上下文的一部分作为 “亮点”，以便生成相关的输出。研究使用可训练的 “焦点向量” 来指示上下文的重要性，测试其在对话响应生成和提取式摘要生成任务中的有效性。

Abstract

The finetuning of pretrained transformer-based language generation models are typically conducted in an end-to-end manner, where the model learns to attend to relevant parts of the input by itself. However, there does not exist a mechanism to directly control the model's focus. This wo

pretrained transformer-based language generation models control mechanism highlights focus vectors dialogue response generation

发现论文，激发创造

改变 Transformer 的思想以实现主题可控语言生成

该研究设计了一个交互式写作辅助框架，它利用基于 Transformer 的语言模型为作者提供可能的续写文本主题，并允许作者选择其中一部分以引导生成，研究表明该框架的主题选择比标准的聚类方法更好且自监督的训练能够产生流畅且相关的句子。

Mar, 2021

可控主题聚焦抽象摘要

该研究提出了一种基于 Transformer 的架构，能够生成以特定主题为焦点的摘要，并通过修改 Transformer 的交叉注意机制实现主题焦点控制，从而在 NEWTS 数据集上取得了新的最佳表现，并且能够通过微调将该机制应用于不同的 Transformer 模型，提高了 CNN/Dailymail 和 XSum 基准数据集上的抽象概括性能。同时，通过人工评估证明，该模型生成的摘要更加准确，胜过了最先进的 Frost 模型。

Nov, 2023

BERT 能否预测对比焦点？使用语言模型在神经 TTS 中预测和控制突出显示

研究了利用 Transformer 语言模型表示推断文本到语音合成（TTS）中的韵律特征，着重于个人代词的对比焦点预测，采集了一些包含对比焦点的语言数据样本，并使用微调的 BERT 模型预测量化的声学显著性特征，并研究过去的语言数据如何对该预测提供有关信息及如何控制对重要性特征有用。

Jul, 2022

聚焦 Transformer：上下文缩放的对比训练

提出了一种名为 Focused Transformer（FoT）的技术，通过对称的学习过程来增强（键，值）空间的结构，从而提供更长的上下文长度，有效地解决了大型语言模型在处理长文本时的局限性。

Jul, 2023

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

局部关注和内容选择实现的长篇摘要

本研究提出使用 local self-attention 和 explicit content selection 两种方法来应对长篇文档摘要中的长跨度依赖，并利用大型预训练变压器模型在 Spotify Podcast、arXiv 和 PubMed 等标准数据集上进行实验，证明两种方法的组合可以在 3 个任务中实现 ROUGE 得分的最优结果。此外，与现有算法相比，在没有大规模 GPU 计算机卡的情况下，本研究的方法也可以实现相当或更好的结果。

May, 2021

预训练语言模型的跨度微调

本文提出了一种新颖的跨度微调算法，利用基于卷积神经网络的层次结构增强了预训练语言模型，并在 GLUE 基准下显著提升了其性能。

Aug, 2021

挑选未充分利用的头部：关注网络修剪对于融合对话指代信息的头部选择的视角

通过网络修剪的角度，研究了一种特征注入的注意头选择和操作策略，并在对话摘要中进行了案例研究，结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。

Dec, 2023

编码器 - 解码器 Transformer 与零样本控制生成

本研究提出一种零 - shot 方式控制编码器 - 解码器变换器模型，使用三个控制旋钮：注意偏置、混合解码器、和上下文增强，以实现所需属性的生成输出，同时验证了解码器自我注意模块是维护句子流畅性的主要作用，并研究提出可行的转换器解码器替代架构及更高效的训练方法。

Jun, 2021

未来视角：利用大型预训练语言模型进行动态故事生成

本文提出了一种基于预训练生成式 transformer 网络的方法 Future Sight，以实现未来条件限制的故事生成任务，在保留自注意机制的同时，增加了对未来情节的建模，使生成内容更有逻辑性和连贯性。

Dec, 2022