- 多样性路径导引用于重要性采样镜面链
该研究论文提出了一种基于连续和相关子路径的重要性采样方法,用于处理包含多个连续镜面顶点(称为镜面链)的复杂光线传输,经过广泛实验证明其优于现有的无偏解决方案,能够在典型场景中减小高达 40 倍的变异度,并且特别适用于具有长镜面链和复杂能见度 - 自适应 Polyak 步长和线性搜索的 SGD 算法:稳健收敛和方差降低
该研究提出了两种新的变体的随机 Polyak 步长和随机线性搜索算法,名为 AdaSPS 和 AdaSLS,它们保证了在非插值设置下的收敛,并在训练超参数化模型时维持凸函数和强凸函数的次线性和线性收敛速度。此外,通过引入方差缩减技术,这些算 - 具有大行动空间的离策评估的双重稳健估计方法
我们在具有大动作空间的情境赌博设置中研究了离策略评估 (Off-Policy Evaluation,OPE)。基准估计器在严重的偏差和方差权衡中遇到困难。为了克服这些限制,我们提出了基于动作嵌入 (MIPS) 的边际化逆向倾向评分 (Mar - 蒙特卡洛模拟和最大最优传输中的政策梯度最优相关搜索用于方差缩减
提出了一种新的算法用于估计方差的减小,其中 X 是某个随机微分方程的解,f 是测试函数。新的估计器是 (f (X^1_T)+f (X^2_T))/2,其中 X^1 和 X^2 的边际法与 X 相同,但路径上具有相关性以减小方差。最优关联函数 - 时差动力学的特征子空间及其在强化学习中改善价值估计的应用
提出了一种新的深度强化学习的价值估计方法:Eigensubspace Regularized Critic (ERC),该方法可以更高效、更稳定地进行价值估计,并在 DMControl 基准测试中,ERC 优于其他先进方法在 20 个任务上 - 基于探测器的重要性采样的大规模图像集计数
提出了一种基于探测器和人机筛选的重要性抽样框架 DISCount 用于大规模图像集合中的目标检测和计数,能够显著减少标签成本并提高筛选效率。
- 知识蒸馏在部分方差降低方面发挥作用
本文揭示了知识蒸馏方法的内在机制,对应于一种新型的随机方差缩减机制。通过在线性模型和深度线性模型的背景下实现这一方法,表明知识蒸馏可以降低随机梯度噪声,从而减少模型复杂度,但是需要进行参数化的调整。
- 短预热期折扣 MDP 的遗憾最优免模型强化学习
本文提出了一个模型自由的算法,通过方差降低和新颖的执行策略,解决了强化学习马尔可夫决策过程中无法实现遗憾最优和存在长时间燃烧期的问题,实现了短燃烧期下的最优采样效率。
- 控制变量切片 Wasserstein 估计器
本文提出了一种控制变量的方法以减少蒙特卡罗方法计算的切片 Wasserstein 距离的方差,并通过图像和点云比较、渐进流和深度生成建模方面的案例来验证该方法的有效性。
- MCMC 中神经控制变量的理论保证
本文针对基于马尔可夫链的方差缩减问题提出了一种基于加性控制变量和最小化适当的渐进方差估计值的方法,重点研究了控制变量表示为深层神经网络的特殊情况,并在基于底层马尔可夫链的各种遍历性假设下,推导出了渐进方差的最优收敛速率。该方法基于方差缩减算 - SPeC: 基于软提示的校准方法,用以缓解临床笔记摘要中的性能变化
使用软提示的模型无关软校准 (SPec) 管道可降低输出方差,同时保留提示式摘要的优点,并有效增强大型语言模型的性能,为临床笔记的摘要提供了更可靠的解决方案。
- Taylor TD-learning
介绍了一种基于模型的强化学习框架 Taylor TD,通过一阶泰勒级数展开 TD 更新来降低 TD-learning 中方差的问题,并在多个基准测试任务中展示了 TaTD3 算法的表现优于多种现有基准算法。
- 随机变量度量近端梯度算法及方差约减在非凸复合优化中的应用
提出了 Perturbed Proximal Preconditioned SPIDER (3P-SPIDER) 算法,适用于解决有限和非凸复合优化问题,是随机变量度量前向 - 后向算法,提出了迷你批处理策略以减少方差并控制收敛,并通过逻辑 - AAAI通过状态抽象将边缘重要抽样扩展到高维状态空间
本研究提出了一种基于状态抽象的离线策略评估方法,采用较低维的状态空间可以降低重要性采样中方差的影响,提高评估准确性和鲁棒性。
- AAAI推广线性模型的耐腐败算法
该论文提出了 SVAM(顺序变异 MLE),这是一个统一的框架,用于在受到训练数据中对手标签污染的情况下学习广义线性模型。SVAM 扩展到最小二乘回归、逻辑回归和伽马回归等任务,具有独立于广义线性模型目标的新颖方差缩减技术,通过迭代求解加权 - 有效高效采样图神经网络的分层估计
本文提出一种名为 HE-SGNN 的 GNN 模型,它使用两级嵌套的估计器来减少采样方差,并且使用不同的估计器来应对不同的采样方法。实验结果表明,该模型的效果和效率都很高。
- 快速异构联邦学习与混合客户端选择
本研究旨在解决联邦学习中由于客户端选择方案带来的模型更新差异性过大所导致的收敛速度慢的问题,并提出了一种基于聚类的客户端选择方案,通过方差约减来加速参与方的收敛速度。实验结果表明,该方案的效率超过了其他替代方案。
- 机器翻译中的鲁棒增强学习 MAD
介绍了一种新的分布式策略梯度算法 - MAD,并通过分布采样、条件奖励归一化和鲁棒重要性权重控制等方式实现了训练稳定性和泛化性能的提高,该算法在机器翻译模型优化任务中表现优异。
- ICML使用间隔的直通估计器训练离散深度生成模型
提出一种灵活的 Gapped Straight-Through (GST) 估计器来降低离散随机变量的梯度估计中的高方差,在 MNIST-VAE 和 ListOps 的两项离散深度生成建模任务中表现优异,比其他策略具有更好的性能。
- 控制变量的多保真度强化学习
研究了基于多种保真度数据的强化学习问题,并提出了一种基于控制变量的多能级估计器以及基于多功能 Monte Carlo RL 方法来提高代理人在高保真度环境中的学习性能。