BriefGPT.xyz
Ask
alpha
关键词
mereq
搜索结果 - 1
MEReQ:最大熵残差 Q 逆强化学习用于样本高效对齐
利用 MEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning) 方法,可以通过人类介入进行样本高效的策略对齐。
PDF
12 days ago
Prev
Next