Apr, 2024

基于数据驱动的批量 $Q^*$ 学习中的知识传递

TL;DR在数据驱动的决策制定中,通过利用现有企业的大量数据来导航高维特征空间,解决新企业中数据稀缺问题,在动态决策制定中探讨知识转移,并通过马尔可夫决策过程的角度形式定义任务差异,提出了具有通用函数逼近的转移拟合 Q - 迭代算法框架,可直接估计目标和源数据下的最优动作状态函数 Q*,在筛选逼近下,阐明了统计性能与 MDP 任务差异之间的关系,揭示了知识转移的有效性受源样本数量、目标样本数量和任务差异的影响,并从理论和实证上显示,Q * 函数的最终学习误差显著提高于单一任务速率。