Sep, 2024

通过动态策略融合实现个性化

TL;DR本研究解决了深度强化学习策略与用户个人偏好不一致的问题。提出了一种动态策略融合方法,通过人类反馈适应已训练的策略,避免了从头开始重新训练的高成本。实验证明,该方法能够实现目标任务,并同时满足用户需求。