BriefGPT.xyz
Ask
alpha
关键词
relative preference optimization
搜索结果 - 1
相对偏好优化:通过对相同和不同提示的对比响应来增强 LLM 对齐
通过对比加权机制,Relative Preference Optimization (RPO) 提出了一种针对大型语言模型的优化方法,提高了模型对用户偏好的理解能力,并在训练过程中提高了适应性。
PDF
5 months ago
Prev
Next