BriefGPT.xyz
大模型
Ask
alpha
关键词
optimization paradigm
搜索结果 - 2
ICML
有限资源下的优质多样性
如何用有限资源高效训练品质多样性算法(QD algorithms),这篇论文提出了一种名为 RefQD 的新方法,通过将神经网络分解为表示部分和决策部分,并在存档中共享表示部分,以减少资源开销。RefQD 在各种资源消耗大小的任务上进行的实
→
PDF
a month ago
非凸赌臂优化的最优梯度算法
本文研究非凸奖励的赌博机问题,提出了一种适用于一类具有非凸奖励函数的赌博机算法,通过统一的零阶优化范式达到了多项式设置下的最优速率,并在生成模型的 RL 中实现了算法的应用,从而取得了比之前方法更好的样本复杂度。
PDF
3 years ago
Prev
Next