BriefGPT.xyz
Ask
alpha
关键词
distribution drift
搜索结果 - 5
学习漂移离散分布的改进算法
我们提出了一种适用于在分布漂移下学习离散分布的新的自适应算法。
PDF
4 months ago
CROP:基于模型的线下策略优化的保守奖励
通过引入保守性估计奖励的方法,本论文提出了一种创新的基于模型的离线增强学习算法,名为 CROP,该算法通过同时最小化估计误差和随机动作的奖励来保守地估计模型训练中的奖励,从而实现保守的策略评估并帮助缓解分布偏移问题。在 D4RL 基准测试中
→
PDF
8 months ago
非交换式的依法风险控制
本论文提出一种非交换可行的符号风险控制框架,用于控制数据不可交换情况下的任意单调损失函数的期望值,并通过在测试示例中基于其统计相似性的权重选择,使得我们的框架在存在变化点、时间序列或其他形式的分布漂移时更有用。实验表明我们的方法的实用性。
PDF
9 months ago
一种改进的延迟反馈赌博机算法
通过控制分布漂移和跳过过大延迟的观测,提出了一种新的在可变延迟反馈下进行抽头算法,该算法改进了先前工作并在两个领域提供更紧密的遗憾界限,同时基于未处理观测的计数而不是延迟或最大延迟来估算复杂度。
PDF
a year ago
低计算量的单目深度分布对齐
提出了一种基于深度分布对轻量级网络与重量级网络之间的精度差异进行建模的分布对齐网络 (DANet),并使用金字塔场景转换模块 (PST) 模块和本地全局优化 (LGO) 方案进行全局深度监督,以实现深度分布形状和场景深度范围的对齐,从而大大
→
PDF
2 years ago
Prev
Next