Jan, 2023

学习生成所有可行的动作

TL;DR利用可行解来简化机器学习中复杂任务的寻优问题,利用可行 action 子空间的训练可以生成多个可重用技巧,通过使用核密度估计、重采样和重要性采样的组合来推导任意 f-分歧的一般优化目标。