惩罚估计在统计线性估计中的应用：强化学习

ICMLJun, 2012

惩罚估计在统计线性估计中的应用：强化学习

Statistical Linear Estimation with Penalized Estimators: an Application to Reinforcement Learning

Bernardo Avila Pires, Csaba Szepesvari

TL;DR探讨线性逆问题的正则化估计，提出一种不需要数据分割的正则化参数选择方法，研究结果为强化学习中线性价值函数估计提供了新的理解和限制。

Abstract

Motivated by value function estimation in reinforcement learning, we study statistical linear inverse problems, i.e., problems where the c

value function reinforcement learning linear inverse problems penalized estimators regularization parameters

发现论文，激发创造

基于奖励相关性过滤的线性离线强化学习

这篇论文研究了离线强化学习中带有判决论但非估计稀疏性的线性函数逼近。

Jan, 2024

具有战略数据来源的最佳统计估计

提出一种最优机制，为统计估算器的数据源提供货币激励，以低成本提供高质量的数据，使支付总额和估算误差最小，广泛应用于线性回归和多项式回归，核回归和岭回归等估算器，并应用于各种目标，包括在预算限制下减少估算误差。

Aug, 2014

高维误差变量模型中的线性和锥形规划估计器

本文研究考虑设计误差的线性回归模型，针对在实践应用中常见但引入噪声的自变量情况，提出了一种基于稀疏性假设的估计方法，并指出该方法在极小化期望风险下是近乎最优的。所提出的估计方法可以通过解线性规划问题实现高效计算，同时具有达到极小化效率界的估计量。

Aug, 2014

使用 $l_1$ 惩罚的高维线性混合效应模型估计

本研究提出了一种针对高维线性混合效应模型的 $\ell_1$- 惩罚估计过程，该模型对于高维观测中存在分组结构的数据非常有用。我们证明了一致性和优化性结果，并开发了一种具有可证明数值收敛性的算法。此外，我们还在模拟和实际高维数据集上展示了该方法的性能。

Feb, 2010

噪声矩阵补全的线性形式的统计推断

基于矩阵的噪声观测，我们构建了一个弹性框架以推断其线性形式，我们提出了一种构建渐近正常估计量的普遍过程，以进行双重样本去偏差和低秩投影，从而允许我们构建线性形式的置信区间并检验假说。

Aug, 2019

无穷维模型中约束函数参数的统计学习及其在公平机器学习中的应用

通过统计函数镜头研究约束统计机器学习的一般问题，特别是在算法公正和机器学习领域变得越来越重要，我们考虑在特定实值函数参数等于零或受限的约束下学习一个感兴趣的函数值参数。结果表明，可获得约束参数的封闭解，从而揭示了公正预测模型的驱动机制。同时，我们提出了构建公正的机器学习算法的估计过程，该过程可以与任何统计学习方法和现成软件结合使用。

Apr, 2024

利用线性矩估计间接监督

为解决间接监督问题中最大边缘似然性面临的两个计算障碍，本文提出了一种基于线性系统求解特定模型的充分统计量的方法，从而通过凸优化来估算参数。同时，本文阐述了该方法的统计特性，并通过在本地隐私约束条件和低成本计数注释双方面的实验表明了该方法的有效性。

Aug, 2016

高维隐马尔可夫模型中带有状态特定图模型的惩罚估计

本文提出了一种基于拉格朗日惩罚项的自适应笛卡尔积方法，该方法可以应用于多元正态观测下的隐马尔可夫模型参数估计，以获得稀疏的逆协方差矩阵，并能在不需要手动调整超参数的情况下适用于低维和高维数据，并能有效处理实际应用中的数据预测与生物遗传学领域等问题。

Aug, 2012

半参数最小二乘学习线性动态系统

通过分析最小二乘估计器的变体，，提出了一种半参数噪声估计算法，可以解决具有偏差，半参数噪声的估计问题，同时可以应用于部分观测线性系统参数的估计，且对于长期依赖问题的方差引入具有可减少的能力.

Feb, 2019

稀疏非线性回归：参数估计与渐近推断

研究了稀疏非线性回归的参数估计和渐近推断，提出了一种 $\ell_1$ 正则化最小二乘估计器，并证明了在温和条件下，目标函数的每个驻点都享有最优的统计收敛速率，并提供了有效的算法来获得估计器的不确定性，同时用数字结果支持了我们的理论。

Nov, 2015