- 提升对最大流形容量表示的理解和利用
通过利用高维概率论工具和信息论的方法,本研究旨在提高对最大流形容量表示(MMCR)的理解和应用,并揭示其在多视角自监督学习中的几何和信息论视角的联系,同时通过实验和预测非单调性变化以改进 MVSSL 方法。
- MM深度生成建模改善压缩与传输:从效率到可靠性
信息论和机器学习密不可分,而深度生成模型则在数据压缩和传输误差修正方面起着重要作用,本文介绍了深度生成模型在数据压缩和错误修复中的双重功能,并强调了生成人工智能与源码和信道编码技术的重要联系。
- ICML神经网络的切片互信息广义界限
通过切片参数空间,我们针对机器学习算法提出新的信息理论泛化界限,证明切片可以提高泛化,并通过压缩模型的失真来收紧泛化界限,从而实现对神经网络的信息理论泛化界限的计算。
- 利用信息估计方法进行图像系统的通用评估与设计
应用信息理论于成像系统的研究中,通过建模对象和测量之间的概率关系,利用只有噪声测量数据的方法估计信息,进而综合量化测量质量,优化成像硬件设计,探索成像系统的基本性能极限,并提供分析和设计工具。
- 基于扩散生成记忆的无数据联邦类增量学习
本文提出一种新颖的无数据的联邦类增量学习框架,使用扩散模型生成稳定、高质量的图像,通过设计新的平衡采样器、信息论的基于熵的采样过滤技术以及与基于特征的正则化项整合的知识蒸馏,来减轻灾难性遗忘和改善基于联邦学习的智能模型的准确性。
- 利用脉冲函数从数据中学习规律:一种理论
提出了一种新的机器学习理论,定义了数学上的规律性,通过结合信息理论,将规律性看作大量信息中编码的少量信息,并讨论了将多个脉冲函数应用于相同数据分布的过程,并提出了一种机器学习方法,可以在实践中获得给定数据集的最佳脉冲函数。
- 信息论视角下的符合预测
本研究利用信息论来将符合预测与其他不确定性概念相联系,并证明了三种不同的方法来上界内在不确定性,同时通过符合预测和信息论不等式的组合,实现了两种直接有用的应用:(i)更规范和有效的符合训练目标,从头开始实现机器学习模型的端到端训练,(ii) - 在双重差异空间中的深度生成采样:一种数据高效且解释性的生成人工智能方法
利用信息理论,本文通过在优化的一维双重差异空间中直接进行生成抽样,揭示了图像的分布特征以及像素之间的全局和局部依赖结构,提出了一种基于渐变插值的生成新样本的算法,并辅以减少样本复杂性的方法,证明了该方法优于现有的深度学习方法。
- 基于理论的重新思考自编码器在医学异常检测中的应用
利用信息理论揭示了基于自动编码器的重建方法在异常检测中的原理和设计理念,并验证了通过最小化潜在向量的信息熵来提高自动编码器在异常检测中的效果。
- FlaKat: 一个基于机器学习的一致性测试分类框架
该研究提出了一个名为 FlaKat 的新分类框架,利用机器学习分类器快速准确地预测给定的易崩溃测试的类别,反映其根本原因,并提出了一种新的评估指标 FDC,用于从信息论的角度衡量分类器的准确性。最终的 FDC 结果与 F1 得分一致,确定了 - TREET: 基于 Transformer 的传递熵估计
提出了一种基于 Transformer 的新系统,用于估计稳态过程中的传递熵。通过使用注意力机制进行神经估计,该方法借助 Donsker-Vardhan 表示来估计传递熵,并与现有方法进行了比较,同时还设计了估计传递熵的优化方案。最后,该方 - 基于矩阵熵的大型语言模型评估
通过信息论和几何原理,我们引入了矩阵熵作为一种新的度量标准,以量化大型语言模型中的数据压缩能力,展示其在单模态和多模态设置中的适用性,并发现它可以作为传统损失缩放定律的补充。同时,我们基于矩阵熵提出了一种评估方法,用于评估对齐质量,并发现现 - 通过近似贝叶斯最优预测进行信息泄露检测
在当今数据驱动的世界中,公开可用信息的广泛传播加剧了信息泄漏(IL)的挑战,提高了安全性问题。本研究利用统计学习理论和信息论建立了一个理论框架来准确量化和检测 IL。该方法通过近似贝叶斯预测器的对数损失和准确度来准确估计互信息(MI),并使 - 多视图集成学习中的语义保持特征分区
机器学习中,数据的指数增长和相关的 “维度之诅咒” 带来了重大挑战,特别是在扩大但稀疏的数据集中。多视图集成学习 (MEL) 是一种变革性方法,其中特征分区 (FP) 在构建 MEL 的人工视图中起到关键作用。本研究引入了语义保持特征分区 - 推进深度主动学习和数据子集选择:用信息理论直觉统一原则
通过改进深度学习模型的标签和训练效率,此研究旨在增强深度学习的实用性。具体地,研究基于信息论原理的数据子集选择技术,包括主动学习和主动采样,其中主动学习提高了标签效率,而主动采样增强了训练效率,并系统研究了这些技术在深度学习中的应用。
- 通过语义压缩扩展大型语言模型的上下文窗口
提出了一种新颖的语义压缩方法,使得基于 Transformer 的大型语言模型(LLM)能够适用于长度为原先的 6-8 倍的文本,而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型,减少长输入的语义冗余后再传 - 通过互信息的变分下界理解探针行为
自监督表示、线性探测、信息论、互信息、线性可分表示
- 基于意外驱动的鲁棒且可解释的非参数学习的 $k$- 最近邻算法
使用信息论的观点提出了一种稳健且可解释的框架,利用单个模型来进行分类、回归和异常检测任务,该框架能够在性能上与最先进的方法持平或超过,并通过提供新的数据和预测特征的概念来增强解释性。
- 用信息解释来描述语言模型解码中的权衡特征
我们提出了一个理论框架,用于利用动态规划和信息论来构建语言模型解码器算法。通过动态规划,我们将解码器算法的设计从逻辑空间提升到动作 - 状态值函数空间,并展示解码算法是优化动作 - 状态值函数的结果。动作 - 状态值函数空间的每个组件都具有 - 理想对齐可能对图形对比学习具有有害作用
通过研究数据增强对对比学习的影响,探索了图形对比学习的内在规律以及数据增强对下游任务和泛化性能的影响,并提出了两种验证该理论的简单而有效的方法。