Dec, 2023

RLHF-V:通过细粒度纠正人类反馈以实现可信赖的 MLLMs

TL;DR通过细粒度纠正的人类反馈,RLHF-V 通过行为对齐增强了 Multi-Modal Large Language Models (MLLMs) 的可靠性。通过在自动化和人类评估中进行全面实验,RLHF-V 能够以有希望的数据和计算效率,在五个基准测试中显著降低 MLLM 的错觉率,并达到开放源代码 MLLM 中可靠性方面的最新技术水平。