Sep, 2024

CANDERE-COACH:从嘈杂反馈中进行强化学习

TL;DR本研究解决了强化学习中对完美反馈假设的局限性,提出了一种新算法CANDERE-COACH,可在存在噪声的反馈下学习。通过引入去噪机制,该算法能够在教师反馈中最多有40%的错误情况下仍然成功学习,从而提升了强化学习的实际应用能力。