在线估计通过离线估计:一种信息论框架
我们研究了离线决策问题,通过从仅与学习目标部分相关的数据集中学习决策。为填补现有研究在离线决策问题的统一框架和理论方面的不足,我们引入了一个统一框架,称为带离线反馈的决策制定(DMOF),它包括离线强化学习、离策略评估和离线部分可观测马尔可夫决策过程等一系列离线决策问题。对于 DMOF 框架,我们引入了一个称为离线估计系数(OEC)的难度衡量标准,用于衡量离线决策问题的可学习性,并且该标准也反映在导出的极小极大下界中。此外,我们还引入了一种称为经验决策与差异(EDD)的算法,我们为其建立了一个实例相关的上界和极小极大上界,该极小极大上界几乎与 OEC 确定的下界相匹配。最后,我们展示了 EDD 在特定设置下(如监督学习和具有部分覆盖的马尔可夫序列问题(例如 MDPs))实现了快速收敛速度(即按照 $1/N$ 的比例缩放的速度,其中 $N$ 是样本大小)。
Jun, 2024
本文分为两部分,第一部分研究了统计学习问题的可学习性和在线学习问题的泛化能力,使用稳定性和经典工具如 Rademacher 复杂度和覆盖数,发现一般学习环境下统一收敛理论无法检测可学习性,第二部分针对凸优化问题提出了适当的镜像下降更新以及 MD 算法在凸优化问题上的可行性研究,证明线性类的 fat-shattering 维度限制了预测问题的 oracle 复杂度。
Apr, 2012
本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究,并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。
Jun, 2023
该论文提出了一种面向在线学习的反向优化算法框架,设计了一种隐式更新算法用于处理噪声数据,并证明其具有统计一致性。实验表明,该算法具有很高的精度和鲁棒性,并且在计算效率上比批量学习更具优势。
Oct, 2018
该论文介绍了一种新颖的在线推断框架,用于低秩张量学习,其中采用随机梯度下降,在不需要大量内存的情况下实现了高效的实时数据处理,大大降低了计算需求。该方法还提出了一种简单而强大的在线去偏置方法,用于顺序统计推断,从而消除了数据分割或存储历史数据的需求,使其适用于即时假设检验。
Dec, 2023
基于顺序熵,确立了在线回归的最佳速率,发现最佳速率具有类似于独立同分布 / 统计学习情况的相变。此外,展示了一种享有建立的最佳速率的通用预测器和一种设计在线回归算法且计算高效的方法。
Feb, 2014
本文研究具有预测的在线图形问题,提出了一个新的度量误差的定义 (metric error),并给出了一个通用框架,用于在线预测算法。采用这个框架,我们能够获得关于竞争比率的紧密限制,并将其作为度量误差的函数来描述。
Dec, 2021
该研究提出了一种新型算法框架用于在线学习的模型选择,通过采用随机演出的基于新型算法框架的 “多尺度” 算法进行预测,可以在最小结构假设下,获得在线模型选择预言不等式,实现了一种通用的元算法框架,并进一步为矩阵类、非嵌套凸集等特殊模型提供了新的预言不等式。
Dec, 2017
本文探讨了在未知系统统计数据的情况下,利用在线学习检测随机网络优化中的系统控制技术,证明了两个在线学习辅助控制技术 OLAC 和 OLAC2 的性能保证,并通过模拟结果证明了这些算法在实践中的优越性。
Apr, 2014