ICMLSep, 2021
可接受性迹下的奖励、策略及优势反馈人机协同的政策梯度算法的收敛性
Convergence of a Human-in-the-Loop Policy-Gradient Algorithm With Eligibility Trace Under Reward, Policy, and Advantage Feedback
Ishaan Shah, David Halpern, Kavosh Asadi, Michael L. Littman
TL;DR本文探讨应用于人类 - 人工智能加强学习中的 COACH 算法,分析了不同类型的反馈策略对算法的影响,提出了一种收敛性更好的变种 E-COACH,并将其与其他强化学习算法进行比较。