BriefGPT.xyz
大模型
Ask
alpha
关键词
self-play fine-tuning
搜索结果 - 2
文本到图像生成的自博弈微调扩散模型
通过自我对抗调优技术 (SPIN-Diffusion) 实现了扩散模型的细化调整,超越了常规的监督式细调和强化学习方法,在生成人工智能领域取得了显著的性能和一致性改进。
PDF
5 months ago
自我对弈微调将弱语言模型转化为强语言模型
通过自我对弈优化学习,无需专家对手,实现在大型语言模型中无需人工标注数据即可达到人类水平性能的研究
PDF
6 months ago
Prev
Next