BriefGPT.xyz
Ask
alpha
关键词
dataset coverage
搜索结果 - 2
通过覆盖度了解偏好微调
通过对数据集覆盖性的严格分析,我们证明离线对比方法能够收敛到最优策略的全局覆盖条件既是必要条件又是充分条件,而在线强化学习方法则只需要弱的局部覆盖条件,这解释了为何在线强化学习方法在离线优化数据不足时表现更好。我们推导了一种混合优化算法 (
→
PDF
a month ago
SafetyPrompts: 评估和改进大型语言模型安全性的开放数据集的系统综述
系统回顾了用于评估和改进大型语言模型安全性的开放数据集,研究了 102 个数据集,并发现了可用数据集的使用模式和趋势,以及数据集覆盖的缺口和目前评估实践的局限性。
PDF
3 months ago
Prev
Next