BriefGPT.xyz
Ask
alpha
关键词
hallucination-aware direct preference optimization (ha-dpo)
搜索结果 - 1
超越幻觉:通过幻觉感知的直接偏好优化增强 LVLMs
这篇论文提出了一个新的策略:幻觉感知直接偏好优化(HA-DPO),通过训练模型在给定同一图像的两个回应(一个准确一个幻觉)时倾向于选择非幻觉回应,从而解决了多模式大型语言模型中存在的 “幻觉问题”。研究结果表明,在应用 HA-DPO 策略后
→
PDF
7 months ago
Prev
Next