BriefGPT.xyz
Ask
alpha
关键词
limited feedback
搜索结果 - 6
有限反馈下交互式教授逆强化学习器
我们研究了在顺序决策任务中通过示范进行教学的问题,特别关注教师无法访问学习者的模型和策略,仅有由教师选择的起始状态的轨迹作为反馈的情况。我们通过有限反馈的教学过程进行形式化,并提出了解决该教学问题的算法。该算法使用了改进的主动风险价值法来选
→
PDF
10 months ago
MM
基于深度学习的 MIMO 系统有限反馈设计
研究了一种基于深度学习的有限反馈方法,通过神经网络替代了包括导频辅助通道训练过程、通道码本设计和波束形成向量选择在内的端到端有限反馈过程,并训练神经网络以产生二进制反馈信息和高效的波束形成向量,以最大化有效信道增益,与传统的有限反馈方案相比
→
PDF
5 years ago
分解赌博机
该研究介绍了因式赌博模型,它是一种基于有限(赌博)反馈的学习框架,其中行动可以分解为原子行动的笛卡尔积。因式赌博将等级 1 赌博作为一个特例,但显着放宽了奖励函数形式的假设。我们提供了一种随时随地的随机因式赌博算法,并匹配了问题的上界和下界
→
PDF
6 years ago
在线学习:综述
通过基本理念和关键原则的系统回顾以及对不同算法和技术的适当分类,此调查旨在提供对在线机器学习文献的全面调查。总体而言,现有的在线学习作品可以根据学习类型和反馈信息的形式分为三个主要类别:(i)始终可用全反馈信息的监督式在线学习,(ii)具有
→
PDF
6 years ago
多臂赌博机中的稀疏性、方差和曲率
研究了在线学习理论,特别是有限反馈情况下的敌对多臂赌博和线性赌博设置,并解决了几个关于算法存在优势遗憾边界的开放性问题,得出某些情况下的优势遗憾边界。
PDF
7 years ago
上下文对决机器人
本文考察了在提供有限信息的情况下,如何使用上下文信息进行学习选择行动的问题,并在 Yue 等人的 dueling-bandits 框架中研究了该问题,提出一种新的基于博弈论的解决方案概念,称为 von Neumann 优胜者,并提出了三种有
→
PDF
9 years ago
Prev
Next