- 关于逐层表示相似性的研究:用于具有单个分类器的多出口模型的应用
我们研究了 transformer 模型中隐藏层之间的表示相似性,并展示了一个简单的样本级余弦相似度度量能够捕捉到这种相似性,并与复杂的统计方法 CCA 一致,通过提出对齐训练方法,我们增强了内部表示之间的相似性,并得到了具有多个隐藏层输出 - 瞄准内部一致性:对语言模型进行推理校准
通过检查中间层解码的潜在预测的一致性,我们提出了内部一致性作为模型信心的度量,这有效地区分了正确和错误的推理路径,并通过加权具有高内部一致性的推理路径来调整链式推理,从而显著提高了推理性能。我们的结果表明,内部表示的使用可以将 LLMs 自 - 探索语言模型参数的激活模式
基于梯度的度量方法探索了大型语言模型内部的参数激活程度,发现参数在浅层被密集激活,而在深层被稀疏激活;当输入跨越不同领域时,浅层参数的激活行为更相似;在深层,参数的激活分布与实际数据相关性呈正相关;进一步验证了这些发现,并期望能在实际应用中 - Holmes:语言模型的语言能力基准测试
提出了 Holmes 语言模型能力评估基准,通过使用基于分类器的探测来评估语言模型的语言能力。分析 50 多个语言模型发现,其语言能力与模型大小相关,同时模型架构和指令调整也显著影响性能,特别是在形态和语法方面。最后,提出了 FlashHo - 国际象棋对弈语言模型中的紧急世界模型与潜变量估计
迄今为止,语言模型的出色表现引发了对其性能来源的争议,是仅仅学习句法模式和表面统计的结果,还是从文本中提取了语义和世界模型?本研究在国际象棋这一更复杂的领域中扩展了之前的工作,通过在真实比赛中进行训练并使用线性探测和对比激活来研究模型的内部 - 语言模型中数值属性的单调表示
通过简单的方法寻找和编辑语言模型中内部表示中的数值属性,发现所有模型中存在跨多个数值属性的特性编码方向,表明数值属性的单调表示在语言模型预训练期间始终存在。
- 安卓是否知道自己只是梦见了电子羊?
我们设计了在转换器语言模型的内部表示上训练的探针,这些探针能够预测其在上下文生成任务中产生的臆想行为。通过创建一个有机和合成臆想的跨任务的跨度注释数据集来促进这种检测。我们发现在合成臆想的强解码状态上训练的探针在有机臆想检测中通常是生态上无 - 自然语言模型编辑增强的灵活模型可解释性
在大型语言模型时代,模型可解释性和模型编辑是关键目标。有趣的是,这两个目标之间存在一种联系:如果一种方法能够针对人类感兴趣的概念有系统地编辑模型行为,这种编辑方法可以通过指向相关表示并系统地操控它们来帮助使内部表示更具可解释性。
- 对比一致性搜索的优化目标比较
通过调整超参数,我们提出了一种名为中点位移(MD)损失函数,它通过优化目标对比一致搜索(CCS)来恢复大型语言模型的内部表示,并展示了 MD 损失函数在更好的超参数下获得了比 CCS 更高的测试精度。
- 通过深度强化学习探究 Morris 水迷宫中的导航策略
本研究使用 2D 模拟 Morris 水迷宫来训练深度强化学习代理程序,并自动分类了导航策略, 将人工智能的学习动力学与动物实验数据进行比较。通过开发环境特定的辅助任务来研究影响其有用性的因素, 最后研究了人工代理神经网络中激活的内部表征的 - 压力及适应:应用《安娜・卡列尼娜》原理进行深度学习图像分类
本文提出了一个基于深度学习的模型,以分类癌细胞和非癌细胞,并证明了泛化性较好的模型具有相似的内部表示特征,同时提出了 Anna Karenina 原则(即快乐的家庭都是一样的,不快乐的家庭各有各的不快乐),以解释解释深度学习框架中的问题。
- AAAI将知识表征映射到概念:回顾与新视角
该研究审查了通过提出分类法来将人类可理解的概念与神经网络中的内部表示相对应的研究,并发现了与模型可解释性目标有关的文学研究中的歧义,即是理解机器学习模型还是在部署领域有用的可行解释。
- MM基于拓扑特征训练的神经网络学习不同的内部表示吗?
本文在探讨训练机器学习模型时使用拓扑数据分析的特征与使用原始数据的区别,通过神经针线和中心核对齐两种流行度量方法来确定内部表征的相似性,研究表明训练和评估基于拓扑特征的模型与基于原始数据的呈结构性差异,但有时可以通过简单仿射变换来调和这种差 - EMNLP语言模型对我们的理解仍不完善
讨论了自然语言理解的三种观点(作为映射、作为可靠性和作为表示),认为虽然行为可靠性对于理解来说是必要的,但内部表示是足够的,提出了刻画有限的有效的语言和多模型的挑战,质疑了范式缩放的极限。最后,说明了如何通过作为表示来推进对理解的科学研究。
- 神经机器翻译中的性别转换筛选
本文研究了最先进的机器翻译系统中的信息流,以将法语翻译成英语时的性别转移为例。通过实验控制的示例,我们尝试多种方法来研究性别信息如何在编码器 - 解码器架构中循环传播,包括探测技术以及对 MT 系统中使用的内部表示形式的干预。结果表明,性别 - 针对低级视觉的高效基于 Transformer 的图像预训练
本文研究预训练在图像处理系统中的作用,采用基于 Transformer 的预训练机制提高各种低级任务的性能,并设计一整套对内部表示影响的评估工具。实验证明,预训练对低级任务有着截然不同的影响,其中多任务预训练是最有效和数据高效的方法,本研究 - ICCV面向单目深度估计的可解释深度网络
本研究介绍了一种方法,通过测定模型深度的某些隐藏单元对深度的特定区域的选择性,量化了深度网络的解释能力,并提出了一种在不改变原始架构的情况下训练可解释性深度网络的方法,并证明了该方法通过大幅提高其单位的深度选择性来增强深度网络的解释能力,并 - 探测神经对话模型的对话理解能力
本研究分析了神经网络开放领域对话系统所学习的内部表示,并评估了这些表示的质量以学习基本的交谈技巧。结果表明,标准的开放领域对话系统难以回答问题、推断矛盾并确定对话话题等任务,需要更多的研究来探讨建筑和训练方法,从而更好地捕捉有关对话的高级信 - AAAI从内部表示进行知识蒸馏
本文提出了通过知识蒸馏从内部表示来压缩 BERT 这样的大型模型,并阐述了两种从内部表示中提取知识的方法和不同算法的实验。结论是,与仅使用软标签蒸馏相比,从内部表示来蒸馏是更强大的方法。
- 在强化学习中学习稀疏表示
本文探讨强化学习算法中的 TD Learning 和基础节疤核在强化学习中的作用,使用计算机模拟来验证利用稀疏的联合表示来学习在特定环境下获得预期奖励的好处。