BriefGPT.xyz
Ask
alpha
关键词
contrastive policy gradient
搜索结果 - 1
对比策略梯度:以监督友好的方式在序列级别上对齐 LLM
Reinforcement Learning 与 Large Language Models 的直接对齐方法之间存在悬殊,因此引入了 Contrastive Policy Gradient 算法来解决,在 Summarization 任务中
→
PDF
13 days ago
Prev
Next