Apr, 2022

双线性值网络

TL;DR通过引入双线性分解的机制,将 Q-value 函数表示为两个向量场之间的点积形式,实现了在实现多目标强化学习过程中 Q-value 函数的优化,提高了数据效率和跨任务泛化能力。