AAAIJan, 2021

无监督从少量样本学习通用政策

TL;DR此研究提出了一种替代方法来计算更具表现力的通用策略,该方法不需要样本计划或 QNP 计划程序。该方法可以用机器学习中的标准术语来描述,通过定义来自规划示例中的谓词的大但有限的功能池,并寻找用于将 “好” 与 “坏” 状态转换和目标与非目标分开的一小部分功能。然后,这将作为单个组合优化问题一起解决,用加权最大满足问题来表示。