- 向量值谱正则化学习算法的最优速率
我们研究具有向量值输出的一类正则化算法的理论性质,包括核岭回归、核主成分回归、梯度下降的各种实现等。我们的贡献有两个方面:首先,通过推导出一种新的学习速率下限,我们严格确认了具有向量值输出的岭回归的所谓饱和效应;当回归函数的平滑度超过一定水 - 大规模个体 fMRI 数据集中脑编码的岭回归扩展
评估不同的并行化技术以减少在 CNeuroMod Friends 数据集上使用 ridge 回归进行脑编码的训练时间,结果显示 Intel Math Kernel Library 在单个机器上使用 32 个线程时比 OpenBLAS 库快 - 使用预处理改进最小二乘问题的隐式正则化 SGD
通过对预处理的随机梯度下降(SGD)和岭回归的综合比较研究,我们建立了预处理的 SGD 和岭回归的过度风险界限,并证明了存在一个简单的预处理矩阵能够优于标准的和预处理的岭回归,从而展示了预处理的 SGD 的增强正则化效果。
- 大型语言模型几何信息
该研究探讨了大型语言模型(LLMs)中嵌入的信息编码,并发现与模型大小存在幂律关系的表示熵。基于此观察,提出了一个基于(条件)熵的理论以阐明该缩放定律现象。此外,通过使用信息论和回归技术,研究 LLMs 的自回归结构,并检查最后一个标记与前 - 预验证岭回归是高维数据逻辑回归的高效替代方案
给定一篇研究论文,从中提取出代表其主要主题和研究领域的五个关键词,并用一句简明扼要的中文句子对论文进行总结。
- 基于平均不确定性的鲁棒回归
我们提出了一种新的鲁棒回归的表述,通过整合不确定性集的所有实现并采用平均方法来获得普通最小二乘回归问题的最优解。我们证明了这个表述意外地恢复了岭回归,并在现有回归问题的鲁棒优化和均方误差方法之间建立了缺失的联系。我们首先证明了四种不确定性集 - 贝叶斯超越交叉验证:通过最大化期望实现高效准确的岭回归
提出了一种用于调整岭回归的正则化超参数 λ 的新方法,比留一法交叉验证 (LOOCV) 更快速计算,同时产生等效或更好的回归参数估计,尤其在稀疏协变量的情况下。
- ELM 岭回归增强
通过提出一种 Boosting 方法来改进极限学习机(ELM)的分类性能和鲁棒性的岭回归(RR)方法。
- 高维重尾数据下的健壮回归:渐近性和普适性
我们研究了在协变量和响应函数都存在重尾污染的情况下,强鲁棒回归估计器的高维特性。尤其是,我们针对一族包括无二阶甚至更高阶矩不存在情况下的椭圆形协变量和噪声数据分布,提供了 M - 估计的锐性渐近特性描述。我们表明,尽管具有一致性,在存在重尾 - 透过他们的眼睛:简单对齐技术的多受试者脑解码
通过数据对齐方法,我们的研究旨在引入一种针对跨个体大脑解码的泛化技术。我们使用了 NSD 数据集,利用多个受试者的数据对齐,对跨个体大脑解码进行了训练和测试,证实了即使使用约 10% 的数据或 982 个共同图像,交叉个体的大脑解码也是可行 - 梯度下降的一步证明了在上下文中具有一层线性自注意力的最优学习者
使用线性自注意力的一层 Transformer 在合成的线性回归数据上进行预训练,表明通过最小化预训练损失可以实现最小二乘线性回归目标的梯度下降的单步操作。
- 奖励学习作为双非参数赌博机:最佳设计和标度律
该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题,利用非参数函数来模拟奖励模型和策略,借助岭回归算法开展无渐进过度风险边界分析,以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题,与泊松核已有研究进行了比较。
- ICML岭回归的算法和下界草图
提出了基于草图的迭代算法,用于解决均方误差损失函数加正则项的岭回归问题,针对早期工作中的子空间嵌入要求而使用更弱的近似矩阵乘法保证,为核岭回归提供了更快的算法,同时我们对均方误差损失函数的算法框架提出了切实可行的草图规模下限。
- 随机特征和核方法的泛化误差:超收缩和核矩阵集中
研究了在高维情况下,使用随机特征与岭回归相结合的方法在特征空间中实现核 Ridge 回归的近似,证明了欠拟合比过拟合更容易避免,展示了在满足特定谱条件和某些特征向量的超收缩性假设的情况下,所得到的错误随着自由参数的增加呈幂律下降的规律。
- 岭回归中的良性过拟合
本研究探讨了过参数化模型在插值噪声数据时的行为,分析了数据的协方差结构和高效秩的子空间是如何影响该现象的发生,并提供了正则化条件下的结果。
- ICML随机梯度流对最小二乘隐式正则化
研究隐式正则化的小批量随机梯度下降,以最小二乘回归为基础问题,利用具有与随机梯度下降相同矩的连续时间随机微分方程,称为随机梯度流。给出了随时间 t 随机梯度流的超额风险的界限,超过了具有调整参数 λ=1/t 的岭回归,此界限可以从明确的常数 - ICLR岭回归:结构、交叉验证和草图
本文研究岭回归的三个基本问题:估计器结构、正确使用交叉验证选择正则化参数以及如何在不损失过多精度的情况下加速计算。我们在一个统一的大数据线性模型下考虑了这三个问题。通过将岭回归精确表示为真实参数和噪声的协方差矩阵相关的线性组合,我们研究了 - AAAI人类辅助下的回归分析
本文介绍了一种机器学习模型,可以在不同的自动化水平下运行,在人类辅助下进行正则化回归,并且通过将目标函数表示为非递减子模函数的差异来解决 NP 难题,该算法对于回归模型预测错误率最高的样本案例取得了最优解。
- WONDER:高维加权一次性分布式岭回归
探讨如何在分布式计算环境中进行岭回归,并提出了一种新的加权组合算法 WONDER,试验表明可以节省至少 100 倍的计算时间。
- 最小二乘法中提前停止的连续时间视角
本文研究了应用于最小二乘回归问题的梯度下降迭代的统计特性,将其与岭回归的风险进行比较。研究发现,在梯度下降的整个路径上,其风险不低于岭回归的 1.69 倍,并在平均信号下保持相对风险边界,同时考虑了极限风险表达式和支撑数值实验。