- 解锁未来:探索大型语言模型的先见规划机制解释性
我们研究了大型语言模型中的预测规划机制,通过分析信息流和内部表示的角度,我们发现多层感知器和多头自注意力组件在最后一个标记上的输出可以直接解码决策,在信息流方面,我们揭示了多头自注意力主要提取目标状态和最近步骤的范围内的信息,我们进一步探索 - 通过虚拟节点的概率图重连
隐式重连消息传递神经网络 (IPR-MPNNs) 整合了概率性图重连机制,解决了信息传递受限和结构瓶颈导致的问题,实现了跨较大距离的消息传递,并在多个图数据集上取得了最先进的性能,同时保持了显著更快的计算效率。
- 通过全局和局部的非耗散性解决图形过度压缩
该论文介绍了一种解决过度压缩问题的新方法,利用全局和局部非耗散性的属性,通过 SWAN 模型实现了信息的稳定流动速率。理论分析和对合成和真实世界基准的实证评估验证了 SWAN 的理论理解和其减轻过度压缩的能力。
- 等价线性神经网络集合的几何结构
线性神经网络中的权重向量对应的纤维是一个代数多样体,称为纤维,具有层次结构的代数多样体,称为等级分层,每种模式由分层所代表,纤维的拓扑取决于权重向量的分解,以及其几何形状。
- 定位和编辑 Mamba 中的事实关联
通过四条实验研究了 Mamba 状态空间模型中的实际记忆机制,发现其与自回归变压器语言模型在知识记忆的局部性和特定模块的相关性方面具有相似性,并且通过多种技术验证了 Mamba 的实际关系表示的线性性和信息流动。
- 定量因果关系、因果引导的科学发现和因果机器学习
因果分析对于可解释的深度学习和泛化提供了有前景的途径,通过将因果性纳入人工智能算法,并利用气象可预测性初次构建严格的因果分析形式体系,在过去的 18 年中,成功解决了以往因果性分析中模糊、非数量化、计算效率低等挑战,并通过广泛应用在大气海洋 - GNNavi: 通过图神经网络导航大型语言模型的信息流
通过引入基于图神经网络的 GNNavi 方法,我们在少样本学习中实现了信息流的增强和清晰的聚合过程,其在性能和效率上超越了现有的 PEFT 方法。
- Transformer 跟踪的信息流优化
研究发现基于信息流的变压器跟踪器 (OIFTrack) 可以增强其辨别能力,并在挑战性的基准测试中取得杰出表现,特别是在一次跟踪基准测试 GOT-10k 中,平均重叠度达到 74.6%。
- 评估合创性使用总体信息流
通过量化评估音乐合创过程中的信息流,本文旨在创造一种基于总信息流的度量,即创作音乐过程的 “好坏” 指示。通过使用预训练的生成模型作为熵估计器计算信息流的方法,我们展示了如何通过定性研究验证了我们的方法与人类感知的匹配性。
- 关于环展开和级数剪切函数在局部势近似中的应用讨论:使用格林函数的复杂性分析,对于渐进安全性剪切 N 阶社交互动
利用理论物理方法研究信息过滤泡现象,通过分析循环展开、截断函数、和格林函数等探讨社会交互复杂性,并评估其对系统的影响,以理解过滤泡的形成与消解机制,预防和管理挖掘洞察信息流和意见形成的复杂动力学。
- 通过点亮重要信息更好地解释 Transformers
提出了一种在层间相关传播 (LRP) 方法的基础上通过细化信息流来突出重要信息并消除无关信息,实验结果表明,与八个基准方法相比,在分类和问答数据集上我们的方法始终表现出超过 3% 到 33% 的解释指标的提升,提供了更好的解释性能。
- 跨相关随机过程的信息流速率
我们通过统计特性数据推导出了信息流速率与自相关函数的解析特性和特征时间之间的关系,从而阐明了采样步长、交叉相关强度和时间延迟对信息流速率的影响。我们通过数值模拟支持了理论结果。
- 全球连接神经网络
深度学习架构的性能下降问题,以及 GloNet 架构作为传统架构 ResNets 的一个强有力的替代方案。
- DecoderLens: 编码解码 Transformer 的分层解释
近年来,提出了许多可解释性方法,以帮助解释 Transformer 模型的内部状态,在不同层次的精度和复杂性上。在此,为了分析编码器 - 解码器 Transformer,我们提出了一种简单的新方法:DecoderLens。受到仅解码器的 L - 标签词是锚点:信息流角度理解上下文学习
本文通过信息流视角调查了示例中核心单词在对应学习任务中扮演的角色,并提出了一种锚点加权方法来提高学习效果,一种演示压缩技术来加速推断,并提出了一种分析框架来诊断 ICL 中的错误,并为未来的研究奠定了基础。
- 前向 - 前向算法中的层次协作
本研究探讨了前向传播算法中的层次协作,并提出了一种新的版本来支持层次协作,以更好地利用神经网络的结构,同时不需要任何额外的假设或计算。经验证明,所提出的版本对于同时考虑信息流和目标度量具有显著的效果,并且这种方法受到了函数熵理论的启发。
- 自回归语言模型中事实关联的回忆解剖
本文通过信息流的视角研究了基于 Transformer 的语言模型如何在推理过程中检索参数中的实际知识,并通过对模型中注意力机制的介入实现了对预测中信息流的详细分析和理解。通过此研究,我们阐述了在语言模型中实现知识局部化和编辑的方法。
- 自然语言处理中通过组合标签进行信息传播
本文介绍了自然语言处理中的标注任务并定义了标签概念,在实体链接和信息流方面提出了一种新的方法,并通过熵计算信息损失,最终将其视为两个实体在图上路径的距离。
- MM深度神经网络在物理层通信中的理论分析
本文研究深度神经网络在物理层通信中的应用,首先通过比较传统和基于 DNN 的编码器的性能来验证其可行性,接着通过理论分析 DNN 估计器的性能来展示其吸引人的特点,并探究 DNN 通信系统中的信息流动机制以及与传统的通信系统的差异。该研究为 - 基于互信息最大化与最小化和身份嵌入的多模态情感分析的多模态表示学习
本研究提出了一种基于互信息最大化和最小化以及身份嵌入(MMMIE)的多模态表示模型,以更好地应对不同模态之间的异质性差距和上下文动态。实验结果表明,该模型在两个公共数据集上的表现具有有效性。