Jul, 2023

使用少量数据发现智能体学习的方式

TL;DR本文提出了一个用于在短暂的系统轨迹爆发中实时识别控制智能体动态的理论和算法框架。通过使用多项式回归识别代理程序的动态,我们对捕捉代理行为的基本假设或期望的副信息约束进行补偿,使用二次优化进行计算,这导致一系列越来越好的逼近真实代理行为动态的逼近。