BriefGPT.xyz
大模型
Ask
alpha
关键词
ranking oracle
搜索结果 - 1
零阶优化迎接人类反馈:通过排名预言实现可证明的学习
研究使用一个新的零阶优化算法来解决只有排名反馈的黑盒子目标函数,并将其应用于强化学习中的政策搜索问题以及提高扩散生成模型生成图像质量方面的有效性的问题。
PDF
a year ago
Prev
Next