BriefGPT.xyz
Ask
alpha
关键词
direct preference optimization (dpo)
搜索结果 - 2
用噪声条件化感知调整扩散模型
通过在扩散模型的内嵌空间中优化感知目标,我们提出了一种方法,使用直接偏好优化 (DPO)、对比偏好优化 (CPO) 和监督微调 (SFT) 来显著提高扩散模型的效率和质量,同时降低了计算成本。
PDF
11 days ago
迭代长度正则化直接偏好优化:基于提升 7B 语言模型至 GPT-4 水平的案例研究
我们引入了迭代的长度正则化 DPO(iLR-DPO)来解决改进的回应质量可能导致冗长的问题,并验证了 iLR-DPO 在与 GPT-4 相媲美的性能上的有效性。
PDF
19 days ago
Prev
Next