Mar, 2018

具备回归神谕的实用上下文强化学习

TL;DR本研究提出了一种新的技术,将可实现性方法的经验和计算优势与不可知方法的灵活性相结合,借助回归预测器的可用性来进行算法优化,实现了任何分布假设下出色的表现。