从预训练语言模型中提取潜在的操纵向量

ACLMay, 2022

从预训练语言模型中提取潜在的操纵向量

Extracting Latent Steering Vectors from Pretrained Language Models

Nishant Subramani, Nivedita Suresh, Matthew E. Peters

TL;DR本研究提出一种新的控制文本生成方式，在不进行优化的情况下直接从预训练的语言模型解码器提取潜在向量。实验证明存在可用于控制的方向向量，并且可以用于 YELP 情感基准测试和文本相似性基准测试，反映句子的相似性。

Abstract

Prior work on controllable text generation has focused on learning how to control language models through trainable decoding, smart-prompt design, or fine-tuning based on a desired objective. We hypothesize that the information needed to steer the model to generate a target sentence is

controllable text generation latent vectors pretrained language model decoders unsupervised sentiment transfer steering vectors

发现论文，激发创造

用于引导生成式大型语言模型的风格向量

本研究通过在文本生成过程中向隐藏层的激活添加风格向量，探索将大型语言模型 (LLMs) 的输出引导到特定风格 (如情感、情绪或写作风格) 的策略。通过一系列实验，我们展示了使用这种风格向量进行激活工程对生成文本的风格产生影响的有效性和可调节性，使其与提示工程相区别，从而促进了更具适应性和有效性的 AI 增强交互系统的发展。

Feb, 2024

大型语言模型的个性化引导：通过双向偏好优化实现多功能引导向量

通过双向偏好优化来产生更有效的转向向量，从而在多种开放生成任务中实现个性化控制，并在关键对齐场景中展示出卓越的转向效果以及多个向量同时应用时的协同效益。

May, 2024

用均值居中改进语言模型中的激活引导

通过应用均值中心化的思想，我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值，可以得到有效的转向向量，这在广泛的上下文中可以轻松改善激活转向的有效性。

Dec, 2023

无副作用的驾驶：提高语言模型的部署后控制

减少最坏情况行为的方法，通过将合适的向量添加到模型隐藏状态，我们提出了 KL-then-steer (KTS) 技术，该技术通过首先训练模型来最小化斯坦离差 (KL)，然后再进行模型转向，可以防止原始 Llama-2-chat-7B 模型的 44% 的越狱攻击，并保持与原始语言模型几乎相当的友善性。

Jun, 2024

激活增加：不经优化的引导语言模型

控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中，我们提出了一种称为 Activation Addition (ActAdd) 的方法，通过在推理过程中修改激活来可预测地改变模型行为，并展示了其在 GPT-2 上的应用，以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。

Aug, 2023

引导语言生成：利用对比专家指导和负面提示进行连贯多样的合成数据生成

通过对比专家指导和利用现有真实和合成示例实施对抗，STEER 通过嵌入重新定位来解决一致性和多样性问题，从而在生成合成数据时取得了更好的平衡。

Aug, 2023

从对比微调的语言模型中提取语义概念嵌入

提出通过对比学习策略来改进概念嵌入的语义表示方法，使用全新的 contextualized vectors 代替传统平均表示方法，可优化概念嵌入中的语义属性，使得使用该方法后的概念嵌入能在预测语义属性上显著突出于传统概念嵌入方法，尤其是使用 ConceptNet 的方法的效果最佳。

May, 2023

上下文向量：通过潜在空间导向使上下文学习更有效和可控

使用 ICV 替代上下文学习以解决其限制，并展示了 ICV 在多个任务上的更好性能。

Nov, 2023

通过操作语音风格潜在因素进行跨说话人情感转移

本文提出一种基于潜在风格空间中的矢量算术方法的跨说话人情感转移和操纵研究，可以使用仅有的几个标记样本从阅读风格语音生成情感语音，并且情感强度可以轻松控制，保留了说话人的身份。实验结果表明这种方法在表达性、自然度和可控性方面具有优越性。

Mar, 2023

预训练语言生成模型的控制焦点

该研究旨在开发一种控制机制，使用户可以选择上下文的一部分作为 “亮点”，以便生成相关的输出。研究使用可训练的 “焦点向量” 来指示上下文的重要性，测试其在对话响应生成和提取式摘要生成任务中的有效性。

Mar, 2022