- 使用低秩和低精度分解压缩大型语言模型
CALDERA 是一种新的后训练 LLM 压缩算法,通过近似低秩、低精度分解的权重矩阵近似表达模型,研究了压缩比和模型性能的权衡以及在小于 2.5 比特每参数的情况下相比现有的压缩技术的优越性。
- ATP:通过注意力机制实现对顶级主键的快速低延迟存储
提出了一种具有线性复杂度的新型注意力机制 ATP,通过观察输入序列通常具有低秩结构,将输入转换为正交空间,并仅在前几个主要基准上计算注意力。ATP 能够捕捉输入序列中的语义关系,并将注意力复杂度从二次降低到线性,从而在速度上比之前的工作获得 - 低秩赌博机的紧致二至无穷奇异子空间恢复
我们研究具有低秩结构的情境强化学习,提出了高效的算法用于策略评估、最佳策略识别和遗憾最小化,这些算法近乎极小化的性能表现可达到理论最优水平。
- 嘈杂矩阵补全的线性形式多重检验
通过引入新的统计量和利用数据分割和对称聚合方案,该研究开发了一种通用方法来控制多元线性形式的测试的误发现率,并展示了在几乎最优的样本量需求下可以实现有效的 FDR 控制和保证的功效。
- 低秩强化学习光谱逐项矩阵估计
研究低秩结构引发的强化学习中的矩阵估计问题,通过简单的基于谱的方法高效地恢复矩阵的奇异子空间并实现最小的逐项误差,从而设计了充分利用低秩结构的强化学习算法,包括低秩赌博机问题的最小遗憾算法和低秩马尔可夫决策过程中的无奖励 RL 的最佳策略识 - 利用多标签相关性在标签分布学习中的应用
引入辅助的多标签学习过程,恰当地利用辅助多标签学习中的低秩标签相关性,提升了标签分布学习方法的性能。
- 稀疏传感器的数据诱发相互作用
科学和工程中的大维度实证数据往往具有低秩结构,并可表示为仅由少数特征模式的组合。本研究基于数据训练给出了传感器相互作用的完整景观,采用了统计物理学中的伊辛模型,从而优化了传感器布置并利用了外部选择准则。
- 具低秩结构的离线强化学习矩阵估计
本文提出了一种离线策略评估算法,该算法利用了隐含的低秩结构来估计未被覆盖的状态 - 动作对的值,同时提供了一个离线策略优化算法,且具有非渐近性能保证。
- 用随机线性代数学习椭圆型偏微分方程
通过利用低秩结构,我们构建了一种近似于关联绿函数的构建方案,其中相对误差为 $\mathcal {O}(\Gamma_\epsilon^{-1/2}\log^3 (1/\epsilon)\epsilon)$,使用高概率的 $\mathcal - 超参数张量分解的懒惰训练之外
本文研究在过度参数化的目标函数中,通过梯度下降寻找张量分解的方法及其在数据的低秩结构中的应用。
- AAAI基于块汉克尔张量 ARIMA 的多个短时序列预测
本文提出了一种新的多时间序列预测方法,通过采用多重延迟嵌入变换(MDT)将时间序列表示为低秩块 Hankel 张量,并应用 Tucker 分解将高阶张量投影到压缩的核心张量中,然后在连续的核心张量上显式地使用广义张量自回归综合移动平均(AR - ICLR利用结构实现基于价值的规划和强化学习
利用矩阵估计技术,提出了一种利用 Q 函数中的全局低秩结构来提高经典控制器和深度强化学习性能的方案。在控制任务和 Atari 游戏中进行的实验证实了该方法的有效性。
- 通过利用雅可比矩阵的低秩结构实现神经网络的泛化保证
本文探讨了神经网络架构的泛化能力,发现训练和泛化在整洁和结构化的数据集上很容易,在嘈杂和非结构化的数据集上则更难。通过使用 “信息” 空间和 “噪声” 空间,本文证明了即使是常数宽度的神经网络,对于足够好的数据集也可以证明泛化。
- 低秩权重对神经网络对抗鲁棒性的影响
研究的问题是通过压缩来探究神经元网络的鲁棒性并揭示其中的关键特性,其中低秩结构通过核范数正则化促进并结合稀疏性使神经网络显示出显著的鲁棒性。
- ICML低秩结构下的双线性赌博机
提出了一种具有低秩结构的双线性赌博问题,详细介绍了探索 - 子空间探索 - 再调整(ESTR)算法的两个阶段,并证明了该算法具有更好的遗憾边界和性能优势。
- 缺失非随机数据的填补和低秩估计
本文介绍了一种模型和代理的基于矩阵补全的方法来处理丢失而非随机的数据,该方法在处理不同类型的丢失机制时具有稳健性和计算效率,并通过一个实际案例从一个受伤人员数据库中预测是否给患有创伤性脑损伤的患者输注氨甲环酸以控制过度出血的情况。
- SwitchNet: 一种前向和反漫射问题的神经网络模型
本文提出了一种新的神经网络架构 SwitchNet,通过提供散射体和散射场之间的映射 (反之亦然),来解决基于波动方程的逆散射问题。通过利用散射问题的固有低秩结构并引入稀疏连接的新型切换层,SwitchNet 架构使用更少的参数并促进了训练 - 基于潜空间秩最小化的张量环分解:张量补全的高效方法
本文提出了一种新颖的张量完成方法,该方法通过利用张量环潜空间的低秩结构,将核范数正则化引入潜在 TR 因子,从而通过奇异值分解,同时获得最优秩的潜在 TR 因子和恢复的张量。实验结果表明,所提出的方法相对于现有的算法具有更好的表现和效率。
- AAAICSWA: 无聚合的时空社区感知
本研究提出了一种新颖的社区感知范式,名为不聚合社区感知(CSWA),并基于去中心化的空间 - 时间压缩感知框架,通过分布式优化的学习低秩结构来实现对目标区域各个子区域内的环境信息(如空气污染和温度)进行感知,模拟实验结果表明,CSWA 相对 - IJCAI大规模矩阵和张量填补的加速和非精确软补全
本文提出了一种加速的近端算法来有效地完成矩阵和张量,改进了当前最先进的软阈值算法,并提出了新的奇异值阈值方案。实验证明,该算法比其他算法更快速。