- 自适应主动自动机学习中的状态匹配和多重参考
主题:主动自动机学习;适应性学习;状态匹配;参考模型;样本复杂度;摘要:本文介绍了一种自动学习的新框架,它通过状态匹配提供了对参考模型结构的灵活使用,从而减少了自动学习的样本复杂度。实证评估表明,该适应性学习框架改进了当前的状态艺术水平约两 - 分数融合:通过 Kullback-Leibler 重心融合基于分数的生成模型
研究融合预训练生成模型以增强目标生成模型训练的问题,提出使用 KL 散度加权重心作为最优融合机制,其中重心权重经过最优训练以最小化适合目标群体的适当损失。研究表明,通过使用基于扩散得分方法训练辅助生成模型时,可以高效地计算最优 KL 重心权 - 正向和反向状态抽象用于策略离线评估
本研究旨在通过使用状态抽象来对关联性评估进行有效的离线算法评估,并通过构建基于观察到的 MDP 的时间反转 MDP 导出 Q 函数和边缘化重要性采样比率的充分条件,进而提出一种新颖的两步骤程序,将原始状态空间顺序投影到较小的空间,从而大大简 - 非凸高维随机优化的非光滑和非欧几里德近端项随机一阶方法
非凸优化中采用维度无关的随机一阶方法 (DISFOM) 来解决样本复杂度问题,使用小批量估计梯度以达到 ε- 稳定点的样本复杂度为 O ((log d) / ε^4),进一步利用方差缩减可将该界限提高至 O ((log d)^(2/3) / - 私密量子通道压缩与私密量子假设测试
量子广义差异、收缩系数、隐私约束下的样本复杂度、私密量子通道是本研究的主要关键词和研究领域。
- 自信自然策略梯度用于 $q_π$ 可实现受限 MDP 中的本地规划
这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程(CMDP)框架的强化学习算法,通过离线数据评估和策略梯度更新来在线学习,实现了 CMDP 在线性设置中的多项式样本复杂度。
- 无模型鲁棒强化学习及样本复杂度分析
分布式鲁棒强化学习提出了一种模型自由的算法,利用多级蒙特卡洛技术来优化最坏情况性能,解决了以往模型自由的算法在收敛保证和样本复杂度方面的限制,并提供了三种不确定性情况下的有限样本分析,从而实现了分布式鲁棒强化学习的模型自由方法的复杂度最优结 - 布朗非局域神经元与激活函数
在本文中,我们通过定义非局部方向导数的新概念,并分析其理论属性,推导出非局部导数是 ε-sub 梯度的概率重整结果,以及收敛于随机梯度下降方法的样本复杂度结果。最终,利用非局部梯度解决了图像关节流形上参数估计的高度不可微和非凸模型问题,并通 - 多类别 PAC 型强盗分类的快速速率
我们研究了具有强化学习反馈的多分类 PAC 学习问题,提出了一种新颖的学习算法将样本复杂度降低到 O ((poly (K) + 1/ε²) log (|H|/δ)),改进了现有问题的边界,同时在一般类别情况下也得到了类似的样本复杂度边界,算 - 有效的 PAC 学习与回应是 "是" 或者 "否" 的 Oracle 可能吗?
在本文中,我们探讨了在二分类的 PAC 学习中,是否有比经验风险最小化(ERM)更弱的预测力量仍然能够实现学习,结果表明只需多项式代价就可以使用我们的更弱预测力量来学习概念类,同时也满足了 Alon 等人提出的对于有效性学习的算法原则的要求 - 学习多样特征之和:计算难度和基于梯度的高效训练用于冈脊组合
研究具有加法结构的目标函数学习的计算和样本复杂性,证明了多项式 target function 可以通过梯度下降法训练两层神经网络高效地学习,同时建立了统计查询算法的边界。
- 量子策略梯度训练问题
研究了参数化量子电路为基础的强化学习策略的可训练性,发现拥有指数小梯度和梯度爆炸的标准荒原问题,以及这些现象与基态分区和分区映射相关,采用连续型分区的基态可以确保多项式数量的训练窗口和测量次数,该研究在多臂赌博机环境中进行了实证验证。
- 学习具有记忆的高维马尔可夫过程的影响图
基于对多个应用程序在社交网络、神经系统和金融风险分析中的动机,我们研究了学习具有内存的高维多元离散时间马尔可夫过程的底层(有向)影响图或因果图的问题。我们将一个已有的算法扩展到这种带有内存的马尔可夫设定中,并证明了在影响图的度受限制的条件下 - 高维空间中学习稀疏特征的最优修剪
通过在高维度中训练剪枝神经网络并与梯度下降算法结合,我们研究了剪枝网络对广泛类统计模型学习的影响,发现剪枝神经网络在样本复杂度上相比未剪枝网络有提升,并引入了相关统计查询下界来支持这一观点。
- 不需要奖励推断的人类反馈强化学习:无模型算法与实例相关分析
通过开发一种无模型的强化学习方法,本研究以人类反馈为基础,通过对动作进行对抗性竞争,提出了一个可直接从人类偏好信息中识别最佳策略的 RLHF 算法,证明了在样本复杂度方面 RLHF 并不比传统强化学习更困难,并且通过规避奖励推断中的问题,如 - 差分隐私最佳臂识别
最佳臂识别(BAI)问题在数据敏感应用中得到广泛应用,研究此问题时考虑了固定置信度下的本地和中心模型的差分隐私(DP)要求,并提出了相应的算法,以实现隐私与效用之间的权衡。
- 通过最优传输实现 LLM 的分布偏好对齐
基于最优输运的对齐(AOT)是一种针对 LLMs 的分布偏好对齐的新方法,通过在未配对的偏好数据中使正样本的奖励分布在一阶随机支配负样本的分布来对齐 LLMs。我们使用平滑和凸代价,对这种一阶随机支配的凸松弛进行了引入,并将其作为一个最优输 - ICML欠参数化模型中的联邦表示学习
在参数不足的情况下,我们提出了一种新颖的 Federated representation learning 算法 FLUTE,理论上表征了其在线性模型的样本复杂度和收敛速率,实验结果证明其优于现有解决方案。
- 非对称数据的对称核函数:一个与数据无关的可学习性界限
利用高度理想化的数据测度所关联的特征值和特征函数,可以限制与现实数据上可学性相关的理论下界。作为示例,我们给出了与自然语言处理中的泛化变换器相关的核的复制头样本复杂性的理论下界。
- 高维统计中的可复制性
研究了可复制性的计算和统计等价性以及高维统计任务中的样本复杂度,并提出了解决分布有有界协方差和 N-Coin 问题中的开放问题的有效算法。