Mar, 2023

零阶优化迎接人类反馈:通过排名预言实现可证明的学习

TL;DR研究使用一个新的零阶优化算法来解决只有排名反馈的黑盒子目标函数,并将其应用于强化学习中的政策搜索问题以及提高扩散生成模型生成图像质量方面的有效性的问题。