- 自信自然策略梯度用于 $q_π$ 可实现受限 MDP 中的本地规划
这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程(CMDP)框架的强化学习算法,通过离线数据评估和策略梯度更新来在线学习,实现了 CMDP 在线性设置中的多项式样本复杂度。
- KDD使用 Transformer 进行多变量系统中的单变量骨架预测
符号回归(SR)方法尝试学习近似解释观察系统行为的数学表达式。本文提出了一种可解释的神经 SR 方法,生成用于解释每个变量如何影响系统响应的单变量符号骨架。通过分析多组人工生成的数据,其中一个输入变量变化而其他变量保持固定,为每个输入变量分 - rKAN: 理性 Kolmogorov-Arnold 网络
本研究探索了使用有理函数作为 Kolmogorov-Arnold 网络的基础函数,并提出了两种不同的方法,基于 Pade 逼近和有理 Jacobi 函数作为可训练的基础函数,建立了有理 KAN (rKAN)。然后,我们评估了 rKAN 在各 - 线性贝尔曼完备性足以实现少动作高效在线强化学习
这篇研究论文介绍了线性贝尔曼完备性下强化学习中的值迭代算法,并提供了首个多项式时间复杂度的算法。
- 语音化机器学习:重新审视用语言模型进行机器学习
我们引入了口头化机器学习 (VML) 框架,通过限制参数空间为人类可解释的自然语言,将大型语言模型 (LLMs) 视为由文本提示参数化的函数,通过 VML,我们重新审视经典的机器学习问题,如回归和分类,发现这些问题可以通过 LLM 参数化的 - Q 学习作为单调方案
应用线性二次示例来研究强化学习方法中存在的稳定性和收敛性问题,并在函数逼近对单调性属性的影响方面解释确切 Q-learning 的收敛准则。
- 神经网络的近似和梯度下降训练
通过研究使用神经切向核(NTK)优化方法来训练的网络,本文对使用梯度下降训练的网络建立了类似的结果,以扩展逼近结果的平滑性,从而显示了这两种理论的兼容性。
- ICML免模型强化学习中的 $φ$- 散度使用离线和在线数据
鲁棒的 φ- 正则化马尔可夫决策过程(RRMDP)框架的关键贡献是提出了无模型算法,通过历史数据和在线采样来学习最优的鲁棒政策,并在高维系统中进行了理论保证。
- ICLR高效学习具有普适函数逼近的无限视野平均奖励马尔可夫决策问题
我们提出了一种名为 LOOP 的新算法框架,它结合了基于模型和基于值的方法,用于研究无限时域平均奖励马尔可夫决策过程(AMDPs)。此外,我们提出了一个新的复杂度度量并证明了框架在几乎所有 AMDPs 中的有效性。
- 先验依赖的函数逼近后验采样强化学习分析
利用线性混合马尔可夫决策过程模拟的函数逼近方法,本研究推进了强化学习中的随机探索。我们建立了关于函数逼近的依赖先验的贝叶斯遗憾界限,并对后验抽样强化学习的贝叶斯遗憾分析进行了改进,提出了一个上界为 O (d√(H^3 T log T)) 的 - 分布鲁棒离线强化学习的极小极大最优和计算高效算法
分布式鲁棒离线强化学习是针对环境扰动进行鲁棒策略训练的一种方法,当面对大规模状态 - 动作空间时需要进行函数逼近。本研究提出了一种最小极大值最优算法,通过对线性参数化的模型进行实现,探索了实例依赖次优性分析在鲁棒离线强化学习中的应用,并揭示 - 机器学习优化的正交基分段多项式逼近
利用分段多项式来近似 1D 轨迹规划中电子凸轮设计的函数,结合现代机器学习优化器,特别是梯度下降方法,利用正交多项式基函数以及创新的正则化方法,在模型参数优化和连续性优化方面取得了明显提升的收敛性能。
- Transformer 对于回归问题是否表达能力足够?
Transformers 在自然语言处理中变得至关重要,在机器翻译和摘要等应用中取得了显著成功。然而,与现有观点相反,本研究发现 Transformers 在可靠地逼近连续函数方面存在困难,依赖于具有较大区间的分段常数逼近。通过理论分析和实 - 分布鲁棒离轨强化学习:通过线性函数逼近的证明效率
我们研究在源域进行训练并在不同的目标域中部署的离线动态强化学习,通过在线分布鲁棒的马尔可夫决策过程来解决此问题,我们的学习算法在与源域交互时寻求在源域转移核不确定性集合中最坏动态下的最优性能。我们设计了一个使用总变差距离的 $d$- 长方形 - 无需流行学习的流形上的学习
基于 Hypersphere 上的球面多项式,无需预处理数据即可构建一次性逼近,并给出了相对 “粗糙” 函数的最佳逼近速率。
- 最佳逼近的随机投影神经网络:收敛理论和实际应用
通过随机投影(RPNNs)的角度,我们研究了前馈神经网络(FNN)的最佳逼近概念,并探索了它们的收敛性质。我们证明了对于任何一类具有非多项式无穷可微激活函数的 RPNNs,存在一种选择的外部权重,当近似任何无穷可微函数时呈指数收敛率。为了说 - 离线强化学习中的奖励污染攻击
我们研究了利用深度神经网络进行函数逼近的一般离线强化学习中奖励污染攻击问题。我们提出了一种名为 `策略对比攻击` 的攻击策略,通过使一些低性能策略看起来像高性能策略,同时使高性能策略看起来像低性能策略来进行攻击。据我们所知,这是首个在一般离 - 分布受益的更多好处:强化学习的二阶边界
在这篇论文中,我们证明了 Distributional Reinforcement Learning (DistRL) 可以在具有函数逼近的一般环境中获得在线和离线强化学习的二阶上界。这些二阶上界是与回报方差相关的实例相关性上界,我们证明这 - 有限时间分析下的平均奖励 MDP 函数逼近中的 Critic-Actor
我们提出了一种具有函数逼近和长期平均回报设置的第一个评判者 - 演员算法,并对此方案进行了非渐进(有限时间)分析。我们获得了最佳学习速率,并证明了我们的算法实现了关于演员 - 评判者算法类似设置下,评判者均方误差的样本复杂度能够由一个上界为 - 利用函数逼近进行实验规划
我们研究了上下文强化学习中的函数逼近实验规划问题,针对数据收集过程存在较大开销的情况,我们提出了两种与函数逼近相容的实验规划策略。第一种是根据奖励函数类的边界维度实现的假设者规划和采样过程,可实现最优性保证。第二种是在动作数较小的情况下,我