Feb, 2025
LongWriter-V:在视觉语言模型中实现超长高保真生成
LongWriter-V: Enabling Ultra-Long and High-Fidelity Generation in
Vision-Language Models
TL;DR本研究旨在解决现有大型视觉语言模型在生成超过1000单词的连贯输出时面临的挑战,主要原因是缺乏长输出样本。通过引入包含22158个示例的SFT数据集LongWriter-V-22k及Direct Preference Optimization (DPO) 方法,研究展示了如何在保持高保真的同时实现长输出。我们的7B参数模型在新开发的MMLongBench-Write基准测试上表现出色,超过了大型专有模型,如GPT-4o。