代码语言模型中强化的类型预测激活控制
控制大型语言模型行为的问题已成为紧迫的开放问题。在本文中,我们提出了一种称为 Activation Addition (ActAdd) 的方法,通过在推理过程中修改激活来可预测地改变模型行为,并展示了其在 GPT-2 上的应用,以及其与微调或强化学习从人类反馈中得到控制的方法相比所需的计算量和实施工作的差异。
Aug, 2023
通过向大型语言模型注入木马激活向量,我们提出了一种名为后门激活攻击的新型攻击框架,使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵,该方法在主要的对齐任务上表现出高度的有效性,并且几乎不会给攻击效率增加任何开销,同时讨论了对抗此类激活攻击的潜在对策。
Nov, 2023
目前的大型语言模型具有危险的能力,这些能力在将来可能变得更加问题。激活引导技术可以用来减少这些能力带来的风险。本文通过调查激活引导在广泛技能和多种行为方面的功效,首先比较了减少整体编码能力和 Python 特定能力对绩效的影响,发现调整更广泛的技能与调整更狭窄的技能具有竞争力;其次,我们引导模型变得更加短视和追逐财富等其他行为。在我们的实验中,将多种行为的调整向量合并为一个调整向量的方法基本上不成功。另一方面,同时在模型的不同位置插入个别的调整向量是有前景的。
Mar, 2024
本研究通过在文本生成过程中向隐藏层的激活添加风格向量,探索将大型语言模型 (LLMs) 的输出引导到特定风格 (如情感、情绪或写作风格) 的策略。通过一系列实验,我们展示了使用这种风格向量进行激活工程对生成文本的风格产生影响的有效性和可调节性,使其与提示工程相区别,从而促进了更具适应性和有效性的 AI 增强交互系统的发展。
Feb, 2024
CodeTIDAL5 是一种基于 Transformer 的模型,用于可靠地预测类型注释,并从程序的代码属性图中提取使用片段,其在 ManyTypes4TypeScript 基准测试上优于当前最先进的神经类型推理系统 7.85%,总体准确率达到 71.27%。
Oct, 2023
通过应用均值中心化的思想,我们发现将与目标数据集相关的激活平均值减去所有训练激活的均值,可以得到有效的转向向量,这在广泛的上下文中可以轻松改善激活转向的有效性。
Dec, 2023
通过扫描和分析语言模型的激活状态,我们提出了两种探测方法,发现仅使用线性分类器即可在分布外测试集上准确检测出指令漂移,且其泛化能力出乎意料地适用于未知任务领域,如提示注入、越狱和恶意指令。我们的方法无需对语言模型进行任何修改或生成文本,最大程度地实现了可部署性和成本效益,并避免了对不可靠模型输出的依赖。为了促进基于激活状态的任务检查、解码和可解释性的进一步研究,我们将发布我们的大规模任务跟踪工具包,其中包括超过 50 万个实例的数据集,四种 SoTA 语言模型的表示以及检查工具。
Jun, 2024
使用适应性激活引导(ACT)方法,可以通过调整大型语言模型(LLMs)的激活方向,在推理过程中提高生成内容的真实性。ACT 方法通过利用多样化的引导向量并自适应地调整引导强度,有效应对各种类型的虚构现象。在多种模型中附加应用 ACT 后,如 LLaMA,LLaMA2,Alpaca,Vicuna 和 LLaMA2-Chat,其真实性显著提高(分别提升 142%,24%,36%,28%和 19%)。此外,我们还验证了 ACT 在更大规模模型(13B,33B,65B)上的可扩展性,突显 ACT 对大型语言模型的适应性。
May, 2024
OpenTau 为解决基于 LLMs 进行自动化类型预测中的问题而构建了一个基于搜索的方法,包括提出了一个新的衡量类型预测质量的度量方式、给出了一种基于树形程序分解的生成类型搜索空间的方法以及针对 LLMs 的 fill-in-the-type 微调方法。在新的 TypeScript 类型预测数据集上评估我们的工作,结果表明,在所有文件中有 47.4% 的文件通过类型检查(相对改善 14.5%),每个文件的总体错误率为 3.3 个类型错误。
May, 2023