BriefGPT.xyz
Ask
alpha
关键词
martingale theory
搜索结果 - 6
带对手的在线学习:微分包容分析
该论文提出了一种在对抗性场景下的异步在线算法,利用差分包含和鞅论证了算法的收敛性和界限性,证明了该算法可以稳定地估计随机矩阵模型下的期望值,避免了在小部分噪声下的表现问题。
PDF
a year ago
连续时间下的 q 学习
本研究基于王等人 2020 年提出的熵正则探索性扩散过程公式,研究了连续时间下的 Q 学习,构建了独立于时间离散化的 q 函数学习理论,并应用该理论设计了 actor-critic 算法来解决强化学习问题,同时通过模拟实验验证了算法性能。
PDF
2 years ago
ICLR
随机控制系统中的稳定策略学习
本文探讨了如何使用单个学习算法共同学习证明其稳定性的證明的策略,结果显示需要对策略进行某种形式的预训练才能成功修复和验证策略。
PDF
2 years ago
利用时空数据进行因果推论:伊拉克空袭对叛乱暴力影响的估计
本篇研究介绍了一种完整的因果推断方法,可以针对时空偏离的介入变量和观测变量生成的数据进行处理,并使用马丁格尔理论提出了一种可靠估计方法。此外,还在实际案例中分析了美国空袭对于伊拉克叛乱事件造成影响的情况。
PDF
4 years ago
Thompson 采样的先验敏感性
本文深入分析了 Thompson Sampling 算法中对先验分布选择的鲁棒性,发现在选择优先概率质量时,其遗憾上限与先验正判度呈 O (√T/p), 先验负判度呈 O (√(1-p) T), 并利用这些性质提出了一种基于鞅理论的新证明方
→
PDF
9 years ago
评估概率预测
本研究提出了一种新的评估概率预测效果的方法,该方法利用损失函数以及马氏理论来评估预测结果与实际情况之间的关系。
PDF
12 years ago
Prev
Next