sample complexity | BriefGPT

关键词sample complexity

搜索结果 - 575

行为克隆是否足够？理解模仿学习中的可视空间
在这篇研究论文中，通过对行为克隆与对数损失的新分析，我们证明了在控制了累积回报的范围和适当的政策类别的监督学习复杂性的情况下，可以实现无关于问题水平的样本复杂度。特化到确定性、稳定的策略，我们发现离线学习与在线学习之间的差距并不是根本性的，
PDF7 days ago
稀疏线性函数逼近的误差界约束下的误设 $Q$- 学习
给定稀疏线性赌博机，即使在错误规定和稀疏度为常数的情况下，也可以使用多项式数量的样本获得 O (ε) 最优策略，这与没有稀疏度的错误规定线性赌博机需要指数数量的样本产生相同的保证形成鲜明对比。
PDF9 days ago
几何启发的核机器用于超越梯度下降的协作学习
本研究提出了一种新颖的数学框架，通过几何启发的核机器实现协作学习，该方法包含关于泛化误差、逼近误差和样本复杂度的界限说明。通过利用相关优化问题在再生核希尔伯特空间中的凸性特性，我们可以学习给定数据点周围的有界几何结构，并有效地解决全局模型学
PDF22 days ago
关于潜在扩散变压器 (DiTs) 的统计速率和可证明高效准则
我们研究了在低维线性潜空间假设下， extbf {DiT} 的统计和计算极限。根据渐进的潜空间维度，我们推导了 extbf {DiT} 潜空间网络的逼近误差界，并给出了相应的样本复杂度界限。同时，我们表明从估计的得分函数生成的数据分布收敛于
PDFa month ago
自适应主动自动机学习中的状态匹配和多重参考
主题：主动自动机学习；适应性学习；状态匹配；参考模型；样本复杂度；摘要：本文介绍了一种自动学习的新框架，它通过状态匹配提供了对参考模型结构的灵活使用，从而减少了自动学习的样本复杂度。实证评估表明，该适应性学习框架改进了当前的状态艺术水平约两
PDFa month ago
分数融合：通过 Kullback-Leibler 重心融合基于分数的生成模型
研究融合预训练生成模型以增强目标生成模型训练的问题，提出使用 KL 散度加权重心作为最优融合机制，其中重心权重经过最优训练以最小化适合目标群体的适当损失。研究表明，通过使用基于扩散得分方法训练辅助生成模型时，可以高效地计算最优 KL 重心权
PDFa month ago
正向和反向状态抽象用于策略离线评估
本研究旨在通过使用状态抽象来对关联性评估进行有效的离线算法评估，并通过构建基于观察到的 MDP 的时间反转 MDP 导出 Q 函数和边缘化重要性采样比率的充分条件，进而提出一种新颖的两步骤程序，将原始状态空间顺序投影到较小的空间，从而大大简
PDFa month ago
非凸高维随机优化的非光滑和非欧几里德近端项随机一阶方法
非凸优化中采用维度无关的随机一阶方法 (DISFOM) 来解决样本复杂度问题，使用小批量估计梯度以达到 ε- 稳定点的样本复杂度为 O ((log d) / ε^4)，进一步利用方差缩减可将该界限提高至 O ((log d)^(2/3) /
PDFa month ago
私密量子通道压缩与私密量子假设测试
量子广义差异、收缩系数、隐私约束下的样本复杂度、私密量子通道是本研究的主要关键词和研究领域。
PDFa month ago
自信自然策略梯度用于 $q_π$ 可实现受限 MDP 中的本地规划
这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程（CMDP）框架的强化学习算法，通过离线数据评估和策略梯度更新来在线学习，实现了 CMDP 在线性设置中的多项式样本复杂度。
PDFa month ago
无模型鲁棒强化学习及样本复杂度分析
分布式鲁棒强化学习提出了一种模型自由的算法，利用多级蒙特卡洛技术来优化最坏情况性能，解决了以往模型自由的算法在收敛保证和样本复杂度方面的限制，并提供了三种不确定性情况下的有限样本分析，从而实现了分布式鲁棒强化学习的模型自由方法的复杂度最优结
PDFa month ago
布朗非局域神经元与激活函数
在本文中，我们通过定义非局部方向导数的新概念，并分析其理论属性，推导出非局部导数是 ε-sub 梯度的概率重整结果，以及收敛于随机梯度下降方法的样本复杂度结果。最终，利用非局部梯度解决了图像关节流形上参数估计的高度不可微和非凸模型问题，并通
PDFa month ago
多类别 PAC 型强盗分类的快速速率
我们研究了具有强化学习反馈的多分类 PAC 学习问题，提出了一种新颖的学习算法将样本复杂度降低到 O ((poly (K) + 1/ε²) log (|H|/δ))，改进了现有问题的边界，同时在一般类别情况下也得到了类似的样本复杂度边界，算
PDFa month ago
有效的 PAC 学习与回应是 "是" 或者 "否" 的 Oracle 可能吗？
在本文中，我们探讨了在二分类的 PAC 学习中，是否有比经验风险最小化（ERM）更弱的预测力量仍然能够实现学习，结果表明只需多项式代价就可以使用我们的更弱预测力量来学习概念类，同时也满足了 Alon 等人提出的对于有效性学习的算法原则的要求
PDFa month ago
学习多样特征之和：计算难度和基于梯度的高效训练用于冈脊组合
研究具有加法结构的目标函数学习的计算和样本复杂性，证明了多项式 target function 可以通过梯度下降法训练两层神经网络高效地学习，同时建立了统计查询算法的边界。
PDFa month ago
量子策略梯度训练问题
研究了参数化量子电路为基础的强化学习策略的可训练性，发现拥有指数小梯度和梯度爆炸的标准荒原问题，以及这些现象与基态分区和分区映射相关，采用连续型分区的基态可以确保多项式数量的训练窗口和测量次数，该研究在多臂赌博机环境中进行了实证验证。
PDFa month ago
学习具有记忆的高维马尔可夫过程的影响图
基于对多个应用程序在社交网络、神经系统和金融风险分析中的动机，我们研究了学习具有内存的高维多元离散时间马尔可夫过程的底层（有向）影响图或因果图的问题。我们将一个已有的算法扩展到这种带有内存的马尔可夫设定中，并证明了在影响图的度受限制的条件下
PDFa month ago
高维空间中学习稀疏特征的最优修剪
通过在高维度中训练剪枝神经网络并与梯度下降算法结合，我们研究了剪枝网络对广泛类统计模型学习的影响，发现剪枝神经网络在样本复杂度上相比未剪枝网络有提升，并引入了相关统计查询下界来支持这一观点。
PDFa month ago
不需要奖励推断的人类反馈强化学习：无模型算法与实例相关分析
通过开发一种无模型的强化学习方法，本研究以人类反馈为基础，通过对动作进行对抗性竞争，提出了一个可直接从人类偏好信息中识别最佳策略的 RLHF 算法，证明了在样本复杂度方面 RLHF 并不比传统强化学习更困难，并且通过规避奖励推断中的问题，如
PDF2 months ago
差分隐私最佳臂识别
最佳臂识别（BAI）问题在数据敏感应用中得到广泛应用，研究此问题时考虑了固定置信度下的本地和中心模型的差分隐私（DP）要求，并提出了相应的算法，以实现隐私与效用之间的权衡。
PDF2 months ago