Apr, 2024

人机协作中快速在线适应的线性模型引导

TL;DR使用离线数据集初始化非线性模型,然后使用在线逻辑回归通过合作更新来适应合作伙伴的奖励函数,提高零点准确性并减少计算量。