BriefGPT.xyz
Ask
alpha
关键词
unsupervised preference alignment
搜索结果 - 1
自监督视觉偏好对齐
本研究首次尝试了视觉语言模型(VLMs)中的无监督偏好对齐,通过对原始和增强图像对生成选择和拒绝响应,并进行直接偏好优化来实现。通过合理设计图像输入的增强方式,诱导 VLM 生成虚假但困难的负面响应,有助于模型从中学习并生成更强大和健壮的答
→
PDF
3 months ago
Prev
Next