- 缩小差距:在具有神经网络参数化的马尔可夫抽样下实现演员 - 评论员的全球收敛(最新迭代)
该研究论文通过对 Actor-Critic 算法进行全面的理论分析,包括五个实践方面(即 MMCLG 标准),从而建立了全局收敛的样本复杂度界限,为实践应用提供了理论依据。
- 经由高斯平滑的全零阶双层规划
本文研究使用零阶随机逼近算法解决双层问题,无论是上 / 下目标值还是它们的无偏梯度估计都不可用。通过利用斯坦恩恒等式,首先使用高斯平滑估计具有两个独立块变量的函数的一阶和二阶偏导数。然后,在随机逼近算法框架中使用这些估计来解决双层优化问题, - 独立功能逼近的强化学习与马尔可夫博弈:在局部访问模型下改进的样本复杂度界限
学习大状态和动作空间中的均衡、克服多项机构所带来的麻烦是一个具有挑战性的问题,最近的研究尝试通过使用独立的线性函数类来逼近每个代理的边际 Q 值来解决这个问题。我们介绍了一种新算法 Lin-Confident-FTRL,用于学习具有本地对模 - 基于数据驱动的神经网络算法设计及其在分支定界中的应用
数据驱动算法设计通过使用统计和机器学习技术,从一个算法类中选择一个在某个(未知)分布中期望表现最佳的算法。该论文提出了一种在解决问题时可以基于问题实例选择算法的思想,并应用于混合整数优化的分支切割框架中,通过神经网络在决策中起到重要作用。
- 基于 f - 分歧准则的领域自适应:一个改进的框架
我们改进了 Acuna 等人提出的无监督领域自适应(UDA)的理论基础,通过改进他们基于 f - 差异度的不一致性,并引入一个新的度量,即 f - 域差异度(f-DD)。通过去除绝对值函数并结合一个缩放参数,f-DD 产生了新的目标误差和样 - 时差学习的有限样本分析
评估折扣马尔可夫决策过程中,使用线性函数逼近的时序差异 (TD) 方法的性能限界,我们证明,使用通用且独立于实例的步长算法,结合 Polyak-Ruppert 尾部平均,可以获得接近最优的方差和偏差项,同时给出了相应的样本复杂性限界。
- 为什么要训练更多?通过记忆进行有效和高效的成员推断
该研究通过选择具有高记忆得分的样本,旨在最大化攻击成功的同时,将阴影模型的数量减少近两个数量级,并且通过了全面的实验验证。
- 无监督语音识别理论
本文提出了一个通用的理论框架,用于通过随机矩阵理论和神经切向核理论研究 ASR-U 系统的属性和解决超参数敏感性和训练不稳定等问题,并通过三类转换图上的合成语言的 ASR-U 实验提供强有力的理论依据。
- 差模型的好数据:基于阈值的自动标注的基础
本文分析了基于阈值的自动标注系统,推导了保证机器标注数据质量所需的人工标注验证数据量的样本复杂度上限,并通过模拟和实际数据集研究了基于阈值的自动标注在真实数据上的有效性和使用限制。
- 逆强化学习的主动探索
本文提出使用主动探索策略的逆强化学习算法(AceIRL),该算法通过构造置信区间捕捉潜在的奖励函数,寻找信息最充分的环境区域的探索策略,从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度 - ICML自主探索与多目标随机最短路径的近最优算法
该研究重新审视了 Lim&Auer(2012)提出的增量自主探索问题,提出了一种新算法,并证明了该算法在控制状态数多项式增长时是几乎极小化的。
- ICML易实例的不同 ially-Private 聚类
本文研究的是隐私保护聚类算法,提出了一个依据难易程度来组合本来不带保护性质的聚类算法和隐私保护结果的框架,并在高斯混合数据和 $k$-means 算法中实现了样本复杂度较小的聚类效果进行了实证评估。
- 几乎没有视野限制的离线强化学习
本文利用离线强化学习技术研究了时域同质马尔可夫决策过程上的策略评估和优化问题,并提出了一种递归方法来限制离线场景下的 “总方差” 项,得到了近似无视野远的样本复杂度上限。
- 强混合连续时间随机过程的对比学习
本研究研究了时间序列的情况,特别是从一个强混合连续时间随机过程中获取数据。我们展示了适当构造的对比学习任务可以用于估计扩散情况下小到中等范围间隔的转移核。此外,我们给出了解决这个任务的样本复杂度界限,并定量表征了对比损失值对学习核分布密切性 - 多校准统一收敛的样本复杂度
本文探讨了机器学习系统中的社会公正问题,提出了一种多校准方法来解决群体公平性问题。通过解耦公平性度量(多校准)和准确性(预测误差),本研究为多校准误差提供了样本复杂度界限,从而保证了经验的与真实的多校准误差相近。
- 差分隐私的阿绍德、范诺和勒卡姆
本文使用中心差分隐私提出了 Le Cam 方法、Fano 不等式和 Assouad 引理的类似物,并且通过该方法在多个统计估计任务中建立了样本复杂性边界,包括离散分布估计和 l2 距离评估。我们还提供了针对几个其他分布类别的下界,包括产品分 - ICML具有生成 先验的 1 位压缩感知和二进制稳定嵌入的样本复杂度界限
该研究利用生成模型替代稀疏性假设,研究带生成模型的 1 位压缩感知问题。在此基础上结合高斯测量和具有 Lipschitz 连续生成先验的近似恢复,应用于神经网络生成模型,并与基于稀疏性的方法进行了比较,证实了其有效性。
- 针对稀疏互动工作者的众包稀疏一阶矩阵补全的梯度下降
本文提出了一种新的方法,将工人技能评估问题转化为一种秩为 1 的相关矩阵完成问题,并且展示出当采样矩阵不具有二分图连通部分时,相关矩阵可以成功恢复和技能可识别,此外,作者还推导出了基于采样矩阵符号 Laplacian 的样本复杂度界限,并且 - 梯度下降学习线性动态系统
我们证明了随机梯度下降算法可以高效地收敛于未知线性时不变动态系统的极大似然目标函数的全局极值。虽然该目标函数是非凸的,但我们在强但自然的假设下提供了多项式运行时间和样本复杂度界限。尽管线性系统识别已经研究了许多年,但据我们所知,这是我们所考 - 低秩相位恢复
本文提出了两种迭代算法来解决低秩相位恢复问题,这些算法由谱初始化步骤和迭代算法组成,旨在最大化观测数据可能性,并得到了相应的样本复杂度界限。经过大量实验,表明这些算法在低秩相位恢复问题上具有良好的效果。