Sep, 2023

一种丰富且高效的强化学习策略类别:一致性模型

TL;DR我们提出了一种用于离线、离线到在线和在线三种典型强化学习设置的高效且表达力强的策略表示方法,称为一致性策略,以一种演员 - 评论家风格的算法应用连续模型,展现了其在多模态数据、计算效率和性能方面的优势。