BriefGPT.xyz
大模型
Ask
alpha
关键词
cultural preferences
搜索结果 - 1
多语言对齐棱镜:调和全球和本地偏好以减少伤害
在不同语言和文化偏好的非均质集合中优化全球和局部危害,同时解决 “对齐到什么” 的问题,本文研究了不同对齐方法的可行性,通过收集人工标记的红队测试提示生成了全球和局部危害的新的数据集,建立了开创性的对齐技术的先例,在 6 种语言中保持了一般
→
PDF
8 days ago
Prev
Next