BriefGPT.xyz
Ask
alpha
关键词
learning policies
搜索结果 - 4
证据型主动识别:智能谨慎的开放世界具身化感知
为了解决识别模块对于意外输入的处理能力不足的问题,我们将主动识别视为一种按步骤的证据收集过程,在证据组合理论的指导下提供逐步的不确定性量化和可靠的预测。此外,本文提出的奖励函数有效地表征了在开放环境中操作时行动的价值,并通过一系列识别和鲁棒
→
PDF
7 months ago
具有相关信念的最优学习顺序交通网络设计算法
本研究提出了一种结合顺序公交网络设计和最优学习的人工智能驱动算法,以逐步扩大路线系统并更新当前的操作员使用的知识,验证表明,考虑相关性的探索可以实现比贪婪选择更好的性能,在未来的研究中,该问题可能加入更多复杂性如出行时间弹性、换乘次数无限制
→
PDF
a year ago
ICLR
模拟过去的学习
本文摘要:本研究的目的是基于人类反馈对智能体进行政策学习,同时通过学习特征编码器结合学习反向模型,从而使得智能体能够向后模拟人类行为以推断人类行为背后的动机。
PDF
3 years ago
具有时延依赖收益的随机赌博机
提出了一个非平稳随机 bandit 模型及其评估算法,对比了该算法和 UCB 方法的优越性,从而能够有效地解决音乐推荐中的问题。
PDF
5 years ago
Prev
Next