Feb, 2024

神经策略风格转化

TL;DR通过神经策略风格转移(NPST)算法,将样式从一个策略转移到另一个策略,同时保持后者的内容。在实验中,通过深度强化学习和逆向强化学习训练不同类型的策略,并利用三种不同的 Q 网络架构进行编码,并比较每种架构在实验中的结果。