Dec, 2023
RLHF-V:通过细粒度纠正人类反馈以实现可信赖的 MLLMs
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback
Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han...
TL;DR通过细粒度纠正的人类反馈,RLHF-V 通过行为对齐增强了 Multi-Modal Large Language Models (MLLMs) 的可靠性。通过在自动化和人类评估中进行全面实验,RLHF-V 能够以有希望的数据和计算效率,在五个基准测试中显著降低 MLLM 的错觉率,并达到开放源代码 MLLM 中可靠性方面的最新技术水平。