information-theoretic | BriefGPT

关键词information-theoretic

搜索结果 - 33

深度神经网络的信息论泛化界
深度神经网络在实际应用中表现出卓越的泛化能力，本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的 Kullback-Leibler（KL）散度或 1-Wasserstein 距离导出了两
PDF3 months ago
基础模型中低秩适配器的非对称性
参数高效微调机制及其在神经网络中的隆升模块对称性研究及分析。
PDF4 months ago
SGLD 的独立于时间的信息论泛化界
我们提供了一种新的信息理论泛化界限，用于研究随机梯度 Langevin 动力学（SGLD），在平滑性和耗散性的假设下。我们的界限是独立于时间的，当样本大小增加时会衰减为零，无论迭代次数和步长是否固定。与以前的研究不同，我们通过关注 Kull
PDF8 months ago
EMNLP在语言模型中桥接信息论压缩与几何压缩
通过分析语言模型（LM）中的压缩方法，从几何和信息论的角度，我们证明这两种视角高度相关，表明语言数据的内在几何维度可以预测其在 LM 下的编码长度，进而表明语言信息压缩能力是成功 LM 性能的重要组成部分。同时，我们还评估了一系列首次应用于
PDF8 months ago
比较泛化界中的比较器
通过对任意凸比较函数进行信息论和 PAC-Bayesian 广义泛化界推导，我们得到泛化界，这些界利用该函数衡量训练和总体损失之间的差异。当比较函数是边界分布的 CGF 凸共轭时，最紧密的界得以实现，这也适用于结构类似的广义泛化界。这证实了
PDF9 months ago
一种有效的多视图聚类的新方法：信息论透视
提出了一种名为 Sufficient Multi-View Clustering (SUMVC) 的新方法，该方法从信息理论的角度考察多视图聚类框架，通过开发简单可靠的多视图聚类方法和提出足够的表示下界，解决了多视图聚类中的冗余信息和一致信
PDF9 months ago
ICML变压器是通用预测器
本研究发现了 Transformer 架构在语言模型方面的局限性，证明了它在信息理论意义上具有普适预测性，并在非渐近数据区域中分析了各种 Transformer 架构组件的性能，尤其是在数据有效训练的情境中。我们通过对合成和真实数据集的实验
PDFa year ago
信息论泛化界的统一框架
文中提出了一种利用概率去相关引理、对测度空间中的的概率测度进行对称化、配对和链化等技术来获得学习算法信息论泛化界限的一般性方法，进而得到新的期望值和高概率条件下泛化误差的上界，特别地，还包括了基于互信息、条件互信息、随机链和 PAC-Bay
PDFa year ago
基于决策论熵的贝叶斯优化泛化
本文提出一种基于 Sherman 逻辑的不确定性泛化度量，将它应用到贝叶斯优化中来表征不确定性，从而解决了当前信息理论 BO 算法无法考虑后续过程的问题，并且提出一个以此为基础的灵活的获取函数家族。最后，作者还开发了一种基于梯度的方法来高效
PDF2 years ago
熵多边最优输运的信息论等价性：多智能体通信理论
本文提出了关于信息论中多重边际最优输运的等价性质，可以将其简化为熵最优输运的情形，并将其应用于不同信仰的代理之间的通信。结果表明，熵最优输运在多代理情况下是信息论上最优的，本工作可以为多代理团队合作中的最优输运理论研究提供指导。
PDF2 years ago
基于线性规划的资源感知信息论树抽象方法
提出了一个针对资源受限的自主代理人获取任务相关的多分辨率环境抽象的整数线性规划方案，该方案利用信息论信号压缩的概念，特别是信息瓶颈（IB）方法，在多分辨率树空间上将抽象问题作为最佳编码器搜索的一种方式。
PDF2 years ago
自监督学习中我们在最大化什么？
本文提出通过信息熵理论来推导自监督学习方法 VICReg 的构建，通过理论与实证验证产生了新的理解以及对其他 SSL 方法的启示。
PDF2 years ago
为何这个模型预测了这个未来？：封闭形式的时间显著性推动概率预测的因果解释
本研究提出了一种基于信息论的新方法，通过计算观察窗口的不同熵值，识别概率预测模型中影响预测的显著观察窗口，并用合成会话数据集中的话语转换预测任务来证明了该框架的实用性。
PDF2 years ago
自适应信息信念空间规划
该研究旨在使用奖励函数来有效地做出明智的决策，通过提出抽象观测模型来降低计算成本并推导出期望信息论奖励函数的界限以及价值函数的界限，同时，提出了一种用于改善聚合方法的方法，实现了相同动作选择的计算时间减少。
PDF2 years ago
ICML从原始音频学习去标识化韵律表征
提出了一种自我对比无监督信号的方法，用于学习从原始音频中去识别的 prosody 表示，可以用于语音理解的新基准测试 DAMMP，检验了该方法所学到的非 timbral prosody 子组件，已达到部分去识别的效果。
PDF3 years ago
AAAI基于矩阵熵函数的依赖度测量
本文总结并将现有的信息论依赖度量的主要思想推广到更高层次的透视图，并基于此提出了两种测量依赖性的新方法，分别是基于矩阵的归一化总相关量和基于矩阵的归一化双重总相关量，用于量化多变量在任意维度空间中的交互依赖关系，同时探究其在基因调控网络推理
PDF3 years ago
关于泛化误差的个体条件个体互信息界限
我们提出了基于 Bu 等人的误差分解技术和 Steinke 和 Zakynthinou 的条件互信息构造的新的信息论泛化误差界限，通过减少条件互信息中的条件项，我们克服了现有界限的问题，并建立了一个条件解耦引理。
PDF4 years ago
一个非监督的信息理论感知质量评估度量
通过结合信息理论目标函数的最新进展和基于人类视觉系统的计算体系结构，以及对成对视频帧进行无监督训练，我们提出了感知信息度量（PIM），并在 BAPPS 图像质量评估数据集上证明 PIM 与监督度量相媲美，且在 CLIC 2020 的图像压缩
PDF4 years ago
ACL信息论探针用于语言结构探索
本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。
PDF4 years ago
统一的贝尔曼最优性原理：整合奖励最大化和能量增强
本文研究了内在激励方法 —— 授权在外在奖励信号的增强学习中的应用，提出了一个授权奖励最大化的统一 Bellman 最优性原则，发展了基于授权的演员 - 评论家强化学习算法，并在高维连续机器人领域验证了其性能优于现有技术。
PDF5 years ago