BriefGPT.xyz
Ask
alpha
关键词
group preferences
搜索结果 - 2
无奖励强化学习中的群组偏好优化
利用新方法 Group Robust Preference Optimization (GRPO) 对大型语言模型进行重调优,通过考虑不同群体的特点和需求,显著提高了最差表现的群体的性能,减少了群体间的损失不平衡,提高了概率准确性。
PDF
a month ago
利用复杂社交网络的模块结构预测人类偏好
本研究提出了基于随机块模型和贝叶斯方法的新型方法,用于预测个人偏好并确定个体的相关群组,相对于已有的工业级算法,该方法有 38% 至 99% 的相对提升。
PDF
12 years ago
Prev
Next