convergence | BriefGPT - AI 论文速递

关键词convergence

搜索结果 - 585

贝叶斯加法回归树中大数据的计算困境：一个命中时间分析
Bayesian 加法回归树模型（BART）是一种常用的贝叶斯非参数回归模型，广泛应用于因果推断等领域。然而，本文表明 BART 采样器的收敛速度往往较慢，尤其在具有离散协变量的情况下。随着训练样本的增加，近似 BART 后验与精确后验逐渐
PDF4 days ago
学习率自适应的随机梯度下降优化方法：深度学习偏微分方程数值模拟与收敛分析
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法，用于随机梯度下降优化方法，并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
PDF12 days ago
超越乐观：具有部分可观察奖励的探索
通过提出一种新的探索策略，克服现有方法的局限性，即使奖励不总是可观察到，也能保证收敛到最佳策略。我们还提出了一系列用于在强化学习中进行探索的表格环境（有或没有不可观察的奖励），并展示我们的方法优于现有方法。
PDF12 days ago
面向资源受限环境的自适应联邦学习方法
本研究提出了一种资源自适应异步联邦学习算法 (Fed-RAA)，通过根据计算和通信能力分配全局模型的片段给不同的参与客户端，从而解决异构资源下的联邦学习问题。该方法在理论上证实了收敛性，并设计了一种基于贪心算法的在线分配策略，与离线策略相比
PDF13 days ago
神经网络物理模拟器中的不稳定性问题
通过分析神经网络在学习线性动力系统时的训练动态，我们发现在数据分布和权重初始化方案等方面可能会导致不稳定性和学习困难，并提出了相关的缓解策略。同时，我们探讨了离散时间和连续时间动力系统学习之间的重要区别以及对非线性系统的拓展。
PDF14 days ago
镜像流对可分离数据的隐性偏差
我们研究了线性可分的分类问题上，镜像流作为镜像下降的连续时间对应物。对于指数尾部损失函数和对镜像势能的适度假设，在镜像势能的限制函数方向上，我们证明了迭代会收敛到一个最大间隔分类器的 phi 无穷值。当势能是可分离的时候，一个简单的公式能够
PDF14 days ago
关于策略改进算法的收敛性和收敛速度
该论文提供了一个简单的证明，从头开始验证了连续时间熵正则化随机控制问题的策略改进算法的收敛性。通过利用 PIA 所涉及的迭代 PDE 中的复杂 PDE 估计，Huang-Wang-Zhou (2023) 已经建立了这样的收敛性。我们的方法基
PDF16 days ago
通过最优收缩在预测问题中校准神经网络参数
通过将递归神经网络转化为一个已知参数为线性的收缩系统，本文展示了透过具有特定正则化项的递归神经网络模型建模的预测问题可以通过解析法找到其一阶条件的方程组，并将其简化为包含 Sylvester 方程的两个矩阵方程，从而证明在满足一定条件的情况
PDF17 days ago
非布尔函数的未知泛化中的最小度偏差
研究无域推广的随机特征模型和 Transformer 在不同领域数据上的泛化能力，证明了小特征情形下的收敛性，并解释了稀疏目标情形与小特征情形的关系，同时展示了不同数据的情况下 RF 模型和 Transformer 学习能力的差异。
PDF22 days ago
非可分数据和大步长情况下的逻辑回归梯度下降
研究了使用大的恒定步长的逻辑回归问题上的梯度下降（GD）动态。
PDF25 days ago
自适应步长的分布式极小 - 最优优化实现近乎最优收敛
提出一种名为 D-AdaST 的分布式自适应极小 - 极大方法，通过步长跟踪协议解决节点之间步长不一致的问题，从而实现最优收敛率，适用于非凸极小 - 极大问题，并在实验中验证了理论结果。
PDFa month ago
从示范中进行情节主动强化学习：给我一个像这样的例子
提出了 EARLY (Episodic Active Learning from demonstration querY) 算法，通过在基于轨迹的特征空间中生成优化的专家演示查询，改善了学习过程中的人类教学体验和学习性能。在三个逐渐增加的导
PDFa month ago
OLoRA: 正交低秩对大型语言模型的适应
OLoRA 是对 LoRA 方法的增强，利用 QR 分解通过正交矩阵初始化来加速 LLM 训练的收敛速度，同时保留 LoRA 的高效特性，例如可训练参数数量和 GPU 内存占用，实证评估结果显示，OLoRA 不仅收敛更快，而且在各种语言建模
PDFa month ago
通过增强隐式正则化以提高泛化能力和收敛性
通过 Implicit Regularization Enhancement (IRE) 框架，加速深度学习中的 flat 解的发现，从而提高泛化性能和收敛速度。
PDFa month ago
Q 学习作为单调方案
应用线性二次示例来研究强化学习方法中存在的稳定性和收敛性问题，并在函数逼近对单调性属性的影响方面解释确切 Q-learning 的收敛准则。
PDFa month ago
连续时间与空间中的策略镜像下降熵退火
熵正则化在政策优化中被广泛使用，有助于优化收敛，本文通过分析连续时间政策镜像下降动态，证明了固定熵水平下的动态指数级收敛到正则化问题的最优解，并通过调整熵正则化的衰减速率得出在离散和一般动作空间中的收敛速率。
PDFa month ago
多目标线性收缩协方差估计的分析
多目标线性收缩是标准单目标线性收缩在协方差估计中的扩展，通过将几个常数矩阵（目标）与样本协方差矩阵相结合，推导出具有精确和经验均值的正式多目标线性收缩估计器，并在 Kolmogorov 渐近性下证明了其收敛性。最后，我们通过实验证明，在各种
PDFa month ago
ICLR在领域变化下的受启发锐度感知最小化
该论文提出了一种受领域启发的锐度感知极小化（Domain-Inspired Sharpness-Aware Minimization，DISAM）算法用于在领域变化下的优化问题。通过考虑锐度估计中的领域级收敛一致性，DISAM 引入了最小化
PDFa month ago
具收敛保证的谱风险安全强化学习
我们提出了一种基于谱风险度量约束的增强学习算法，该算法利用了谱风险度量的对偶性，通过双层优化结构来实现收敛性和最优性，从而在表格设置中保证了最佳性能，并在连续控制任务中展现出了最好的性能。
PDFa month ago
自动驾驶中的安全多智能体强化学习与双层优化
在自动驾驶应用中确保多智能体强化学习 (MARL) 的安全性是一个关键挑战。本研究提出了一种以随机均衡模型和双层优化为基础的安全 MARL 方法，并给出了收敛性分析。通过理论分析，我们开发了两种实用的算法：约束 Stackelberg Q
PDFa month ago