代码语言模型中强化的类型预测激活控制

Apr, 2024

代码语言模型中强化的类型预测激活控制

Activation Steering for Robust Type Prediction in CodeLLMs

Francesca Lucchetti, Arjun Guha

TL;DR通过激活控制技术，我们可以提高编程预训练模型的鲁棒性，使其在语法上更加灵活，进而提高类型预测的准确性，并揭示了预训练模型可能在不同编程语言之间进行类型知识迁移的可能性。

Abstract

Contemporary llms pretrained on code are capable of succeeding at a wide variety of programming tasks. However, their performance is very sensitive to syntactic features, such as the names of variables and types,

llms pretrained on code syntactic features activation steering type prediction knowledge transfer

发现论文，激发创造

激活增加：不经优化的引导语言模型

控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中，我们提出了一种称为 Activation Addition (ActAdd) 的方法，通过在推理过程中修改激活来可预测地改变模型行为，并展示了其在 GPT-2 上的应用，以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。

Aug, 2023

后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐

通过向大型语言模型注入木马激活向量，我们提出了一种名为后门激活攻击的新型攻击框架，使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵，该方法在主要的对齐任务上表现出高度的有效性，并且几乎不会给攻击效率增加任何开销，同时讨论了对抗此类激活攻击的潜在对策。

Nov, 2023

扩展激活引导至广泛技能和多重行为

目前的大型语言模型具有危险的能力，这些能力在将来可能变得更加问题。激活引导技术可以用来减少这些能力带来的风险。本文通过调查激活引导在广泛技能和多种行为方面的功效，首先比较了减少整体编码能力和 Python 特定能力对绩效的影响，发现调整更广泛的技能与调整更狭窄的技能具有竞争力；其次，我们引导模型变得更加短视和追逐财富等其他行为。在我们的实验中，将多种行为的调整向量合并为一个调整向量的方法基本上不成功。另一方面，同时在模型的不同位置插入个别的调整向量是有前景的。

Mar, 2024

用于引导生成式大型语言模型的风格向量

本研究通过在文本生成过程中向隐藏层的激活添加风格向量，探索将大型语言模型 (LLMs) 的输出引导到特定风格 (如情感、情绪或写作风格) 的策略。通过一系列实验，我们展示了使用这种风格向量进行激活工程对生成文本的风格产生影响的有效性和可调节性，使其与提示工程相区别，从而促进了更具适应性和有效性的 AI 增强交互系统的发展。

Feb, 2024

增强数据流分析的学习类型推断

CodeTIDAL5 是一种基于 Transformer 的模型，用于可靠地预测类型注释，并从程序的代码属性图中提取使用片段，其在 ManyTypes4TypeScript 基准测试上优于当前最先进的神经类型推理系统 7.85％，总体准确率达到 71.27％。

Oct, 2023

用均值居中改进语言模型中的激活引导

通过应用均值中心化的思想，我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值，可以得到有效的转向向量，这在广泛的上下文中可以轻松改善激活转向的有效性。

Dec, 2023

捕捉具有激活的 LLM 任务漂移

通过扫描和分析语言模型的激活状态，我们提出了两种探测方法，发现仅使用线性分类器即可在分布外测试集上准确检测出指令漂移，且其泛化能力出乎意料地适用于未知任务领域，如提示注入、越狱和恶意指令。我们的方法无需对语言模型进行任何修改或生成文本，最大程度地实现了可部署性和成本效益，并避免了对不可靠模型输出的依赖。为了促进基于激活状态的任务检查、解码和可解释性的进一步研究，我们将发布我们的大规模任务跟踪工具包，其中包括超过 50 万个实例的数据集，四种 SoTA 语言模型的表示以及检查工具。

Jun, 2024

自适应激活导向：无需调整的多种幻觉类别 LLM 真实性改进方法

使用适应性激活引导（ACT）方法，可以通过调整大型语言模型（LLMs）的激活方向，在推理过程中提高生成内容的真实性。ACT 方法通过利用多样化的引导向量并自适应地调整引导强度，有效应对各种类型的虚构现象。在多种模型中附加应用 ACT 后，如 LLaMA，LLaMA2，Alpaca，Vicuna 和 LLaMA2-Chat，其真实性显著提高（分别提升 142％，24％，36％，28％和 19％）。此外，我们还验证了 ACT 在更大规模模型（13B，33B，65B）上的可扩展性，突显 ACT 对大型语言模型的适应性。

May, 2024

利用程序分解和类型填充训练进行类型预测

OpenTau 为解决基于 LLMs 进行自动化类型预测中的问题而构建了一个基于搜索的方法，包括提出了一个新的衡量类型预测质量的度量方式、给出了一种基于树形程序分解的生成类型搜索空间的方法以及针对 LLMs 的 fill-in-the-type 微调方法。在新的 TypeScript 类型预测数据集上评估我们的工作，结果表明，在所有文件中有 47.4% 的文件通过类型检查（相对改善 14.5%），每个文件的总体错误率为 3.3 个类型错误。

May, 2023

利用动态激活组合对大型语言模型进行多属性调控

本研究评估了不同的激活导向策略，并提出了动态激活组合方法，以确保在生成过程中实现高度的条件控制同时最小化对生成流畅性的影响。

Jun, 2024