BriefGPT.xyz
大模型
Ask
alpha
关键词
off-policy prediction
搜索结果 - 5
多智能体系统的一致离策略预测
通过利用 MA-COPP 方法解决多智能体系统中的离策略预测问题,我们能够为所有智能体的轨迹推导出联合预测区域,避免了枚举或穷举搜索输出空间的复杂工作,并在 PettingZoo 和 F1TENTH 环境中评估了其有效性。
PDF
3 months ago
面向离线强化学习的价值感知重要性加权
本文提出了一种基于价值感知的重要性权重方法,可用于增强学习的离线预测模型,并在实验中进行了评估。
PDF
a year ago
利用激光雷达作为摄像头进行端到端驾驶
本研究证明,在自动驾驶领域,结合深度传感和视觉信息对于现实汽车道路跟随任务相当有效,且具备时间和空间的完美对齐;同时,从预测效果上可以看出,离线预测序列的时间平滑程度能够等效于常用的平均绝对误差。
PDF
2 years ago
一种收敛的离策略时序差分算法
本文研究了强化学习中的一个重要问题,即如何在不同策略下生成数据样本并使用线性函数逼近算法进行预测,我们提出了一种基于在线学习的算法,通过引入惩罚项确保迭代的收敛性,并通过数值实验验证了算法的有效性。
PDF
5 years ago
重要性重采样用于非同策略预测
研究了用重要性重采样代替再赋权提高强化学习中离线预测的性能,减小了更新权重值函数的方差,并在多个案例中探究了其有关权的偏差和一致性。
PDF
5 years ago
Prev
Next