BriefGPT.xyz
Ask
alpha
关键词
contextual bandit setting
搜索结果 - 4
带 Massart 噪声的半空间在线学习
在存在 Massart 噪声的在线学习任务中,我们研究了广义线性分类器的基本类,并提出了一个高效的算法,达到了错误界限,与在线对手对抗。我们还将在线学习模型扩展到 k 臂上下文强盗设置中,通过使用我们的 Massart 在线学习器设计了一个
→
PDF
2 months ago
比例响应:用于简单和累积遗憾最小化的情境赌博机算法
提出了一种新的基于上下文 Bandit 算法的族群,利用 “保序手臂集” 提供每个上下文的一组手臂,覆盖了上下文特定的最优手臂,在简单遗憾最小化和累积遗憾最小化方面都有优异表现。
PDF
a year ago
批量策略优化中的模型选择
在上下文 bandit 设置下,通过识别任何模型选择算法应优化折衷的三个错误源(近似误差,统计复杂性和覆盖率),我们研究了批次策略优化中的模型选择问题。尽管无法同时保证所有三个源的保证,但松弛其中任何一个错误源均可实现近似于预测准确性和模型
→
PDF
3 years ago
IJCAI
自适应机器人辅助喂食:一种在线学习框架,用于获取以前未见过的食品项目
提出基于上下文强化学习模型的机器人辅助喂食系统来解决如何处理不同外部因素以及如何处理不同分布策略对于未知的食品掌握所带来的挑战。
PDF
5 years ago
Prev
Next