state augmentation | BriefGPT

关键词state augmentation

搜索结果 - 4

多智能体分配任务的状态增强式强化学习
通过受限的强化学习解决多智能体分配问题中的冲突要求，强调标准正则化技术的不足，提出了一种状态增强方法，通过代理利用对偶变量的振荡来在任务之间交替，同时通过通信网络协调多智能体的动作，消除了访问其他智能体状态的需要，从而提出了一种具有理论可行
PDFa month ago
变分延迟策略优化
在延迟观测环境中，通过包含延迟窗口内的动作来增加状态，以恢复马尔科夫特性，从而实现强化学习，但是最先进的时序差分学习框架通常由于延迟导致学习效率低下。为了提高学习效率而不损失性能，本工作引入了一种称为变分延迟策略优化（VDPO）的新框架，将
PDFa month ago
AAAI基于状态扩展的人类偏好强化学习方法
本文提出了一种状态增强技术，利用二元反馈帮助人类进一步了解代理行为来学习奖励模型为强化学习提供更好的支持，并在三种任务领域 Mountain Car、Quadruped-Walk 和 Sweep-Into 中验证了其有效性。
PDFa year ago
状态增强约束强化学习：克服通过奖励学习的限制
通过在状态中增加 Lagrange 乘子并将原始 - 对偶方法重新解释为推动乘子演变的动态部分，本文提出了一种系统的状态增强过程，可确保解决具有约束的增强学习问题。
PDF3 years ago