BriefGPT.xyz
Ask
alpha
关键词
human alignment
搜索结果 - 4
使用 DPO 隐式奖励进行自助式语言模型训练
使用直接偏好优化(DPO)的隐式奖励模型,我们提出了自对齐方法,命名为 DPO 隐式奖励自对齐(DICE),以改进大语言模型的对齐性能和质量。
PDF
22 days ago
辩证统一:解决 LLM 的 3H 与安全威胁的张力
利用人工智能反馈,提出了一种新颖的方案:辩证对齐(Dialectical Alignment)模型,用于调整大语言模型在不同外部证据冲突下的内部状态,以抵御被污染的数据攻击,提高系统的安全性。
PDF
3 months ago
VBench: 视频生成模型综合基准套件
通过 VBench 系统,我们提供了一个全面的视频生成评估基准,将视频生成质量分解为特定的、分层的、分离的维度,并为每个维度提供了定制的提示和评估方法;我们还提供了人类喜好注释的数据集,验证了我们基准与人类知觉的一致性;在各个评估维度和各种
→
PDF
7 months ago
CITING:大型语言模型为指导调整课程创作
利用人工智能模型替代人类作为教师,通过研究生成学生成绩的修订,构建了 Curriculum Instruction TunING (CITING) 方法,提高了大型语言模型的表达、深度和全面性能,在 GPT-4 评估上取得了 79.4% 的
→
PDF
9 months ago
Prev
Next