- 助人良侣还是斐然促进者?研究角色对语言模型行为的影响
研究探讨了角色扮演对大型语言模型的影响,通过为七个大型语言模型分配来自 12 个类别的 162 个不同角色扮演来回答来自五个数据集的问题,发现角色扮演会引起模型行为的多样性和泛化性。
- 使用稀疏自编码器解释注意力层输出
稀疏自编码器被应用于解释训练好的 Transformer 模型的内部激活值,发现它们能够找到一种稀疏而可解释的分解表示,从而帮助研究人员更详细地解释模型行为,并深化对电路语义的理解。
- 针对性负训练实现语言模型的最小目标更新
提出了一种名为目标负向训练(Targeted Negative Training,TNT)的方法,通过使用模型生成的负面样本,实现了最小化目标化更新,以避免生成不希望的结果,同时最小程度地改变模型的行为。TNT 方法在减少不需要的行为和保持 - 语言模型中的拒绝是由单方向引发的
通过分析大型对话式语言模型中拒绝行为的机制,提出了一种解禁方法,并展示了如何通过了解模型内部来控制模型行为。
- 通过近似展开的差分训练数据归因
通过引入类似影响函数的公式来计算,我们将基于隐式微分和展开的方法相连接,结合它们的优点,提出了一种名为 Source 的近似展开式 TDA 方法,该方法在计算上比展开式方法更高效,适用于隐式微分方法无法处理的情况,如非收敛模型和多阶段训练管 - COIG-CQIA:中文指导微调只需一切皆优质
近年来,大型语言模型在英语方面取得了显著进展,但在中文指令调整方面仍存在差距。为了缩小这一差距,本研究介绍了 COIG-CQIA,一个高质量的中文指令调整数据集,并通过训练模型和深度评估分析,提供了有关选择和开发中文指令调整数据集的宝贵见解 - 企业中的提示工程实践探索
通过分析 Prompt 编辑行为和变化类型,以更好地理解 Prompt 工程实践,我们发现与大型语言模型的交互主要通过提示进行,并且有效提示设计取决于用户的迭代过程和目标的实现。
- 信息流路径:大规模自动解释语言模型
我们通过构建节点和边的图表来自动揭示模型中的信息流;与现有的工作流相比,我们通过与其他的方法相反,利用属性来实现这一目标,并能够在任何预测中提取信息流路线,不仅限于特定类型的预测;此外,我们实验了 Llama 2,并表明了某些注意力头的整体 - 我的答案是 C”:指令调整的语言模型中的首词概率与文本答案不匹配
对于自动生成语言模型 (LLMs),评估其面临挑战的一个常见方法是使用多项选择题 (MCQ) 来限制回应的范围,通过排名候选答案首个 token 预测的对数概率来评估模型。然而,由于模型存在多样的回应方式,例如以 “当然” 开始或拒绝回答, - ControlLM: 为语言模型打造多样化个性
利用 ControlLM 控制自然语言处理模型的个性特征,以满足不同类型任务需求,并通过调整模型行为表现出多样的人格特征,提供了改善推理和问题回答的途径。
- 交叉熵 vs. 标签平滑:神经崩溃视角
通过神经崩溃的视角研究标签平滑损失,发现标签平滑能够加快模型收敛速度,增强模型崩溃水平,提供了模型校准和性能优势的有价值见解,同时通过理论和实证相结合的方法,深化了对标签平滑和交叉熵损失之间差异的理解,并展示了神经崩溃框架在深度神经网络研究 - Patchscope:语言模型隐藏表示的统一检查框架
使用 Patchscopes 框架可以解释大型语言模型的内部表示,统一之前的解释技术并扩展新的应用,如使用更强大的模型来解释较小的模型的表示和多跳推理中的自我校正。
- 通过对比激活添加驾驭 Llama 2
介绍了一种名为 Contrastive Activation Addition(CAA)的创新方法,通过在正向传递过程中修改激活来控制语言模型的行为;通过计算 “驱动向量” 来精确控制目标行为的程度,并通过在用户提示后的所有标记位置添加这些 - 深度神经网络的学会与遗忘:通过梯度投影最小化遗忘干扰
最近的数据隐私法引起了对机器去学习的兴趣,机器去学习涉及从学习模型中删除特定训练样本的影响,就像这些样本从未出现在原始训练数据集中一样,这个挑战在于在学习模型中丢弃关于 “遗忘” 数据的信息,同时不改变对剩余数据集的知识,并且比起重新训练的 - 寻找的子空间是否是这个?子空间激活修补的可解释性幻觉
机械性可解释性旨在通过特定的可解释特征来理解模型行为,最近的研究探讨了亚空间干预作为同时操纵模型行为和将特征归因于给定亚空间的方式。然而,我们证明了这两个目标是不同的,可能会导致一种虚假的解释感觉。即使亚空间干预使模型的输出表现得好像特征的 - 通过概念瓶颈解读预训练语言模型
利用高层次、易于理解的概念来解释预训练语言模型的方法,通过人工标注和机器生成的概念来提取隐藏神经元,从而增强模型的鲁棒性和解释能力。
- 亲爱的,告诉我出了什么问题”,通过合作生成实现文本鉴别模型的全球解释
Therapy 是第一个针对文本适应性的全局模型无关解释方法,通过合作生成文本来跟踪分类器所学习的分布,无需输入数据集,提供对模型行为的全局概述。
- 语言模型中事实性回忆机制的表征
利用头部归因方法控制模型行为,将模型表现局部化,并提供了一种概念验证方法,展示如何在运行时动态地控制模型行为。
- 预测不确定性的模型无关变量重要性:一种基于熵的方法
这篇论文介绍了如何将解释性方法扩展到具有不确定性意识的模型中,并演示了如何通过这些方法深入理解模型行为、特征对预测分布熵和真实标签对数似然的影响,以及不确定性来源对模型性能的影响。
- EMNLP基于方法的地基和全面发展:跨模态和跨语言连接研究的一种方法论
通过建立一种方法论框架,对比训练在不同输入模态下的模型,本文研究了提供比仅有文本更丰富的输入来源对自然语言处理系统的影响,发现交叉模态接地、跨语言接地和未接地的模型之间存在质的差异,这从整体数据集层面和具体词表示层面衡量了模型的表现。