ICMLSep, 2021

可接受性迹下的奖励、策略及优势反馈人机协同的政策梯度算法的收敛性

TL;DR本文探讨应用于人类 - 人工智能加强学习中的 COACH 算法,分析了不同类型的反馈策略对算法的影响,提出了一种收敛性更好的变种 E-COACH,并将其与其他强化学习算法进行比较。