多模态LLMs中的对齐理解:一项全面研究
通过使用加强学习从人类反馈中获取的方法,我们提出了基于事实增强的视觉语言对齐算法,以解决大多模态模型中的模态不匹配问题,并在实际场景中取得了显著的改进。
Sep, 2023
本综述论文探讨了多模态大型语言模型(MLLMs),该模型整合了类似于GPT-4的大型语言模型(LLMs),用于处理文本和视觉等多模态数据。MLLMs展示了生成图像叙述和回答基于图像的问题等能力,缩小了人与计算机之间的差距,并暗示了通向人工智能的潜在途径。然而,MLLMs仍面临处理多模态语义差距的挑战,可能导致错误生成,对社会造成潜在风险。选择适当的模态对齐方法至关重要,因为不恰当的方法可能需要更多参数,并且性能改进有限。该论文旨在探讨LLMs的模态对齐方法及其现有能力。实施模态对齐使得LLMs能够解决环境问题并提高可访问性。研究调查了MLLMs中现有的模态对齐方法,分为四个组:(1)多模态转换器将数据转换为LLMs可以理解的格式;(2)多模态感知器改善LLMs对不同类型数据的感知能力;(3)工具辅助将数据转换为一种常见格式,通常是文本;以及(4)数据驱动方法教导LLMs理解数据集中特定类型的数据。这个领域仍处于探索和试验阶段,我们将组织和更新各种现有的多模态信息对齐研究方法。
Nov, 2023
通过引入偏好调优和自动生成数据的方法POVID,本研究解决了视觉大语言模型中可能出现的幻觉问题,并通过直接偏好优化的强化学习模型提高了模型性能。
Feb, 2024
综述着重从细致的分类及持盾人儿的划分、评估基准和减轻方式中就多模式大型语言模型(MLLMs)中产生幻觉的原因进行分析,旨在加深对MLLMs中幻觉的理解,并激发该领域的进一步发展。
Apr, 2024
通过采用多级偏好(例如优秀、中等、较差)取代二元偏好,我们提出了一种基于增强学习从人类反馈中引导多模态大型语言模型学习优质响应、避免生成错误响应的方案,并设计了自动化多级偏好框架(AMP)、多级直接偏好优化算法(MDPO)以及错觉基准测试 MRHal-Bench,实验证明了我们提出的方法的有效性。
May, 2024
大型语言模型(LLMs)对多模态任务表现出令人印象深刻的性能,然而,我们仍然缺乏对其成功的适当理解。本研究将冻结的LLMs公开显示为图像、视频、音频和文本输入,分析其内部表示以了解其在文本输入之外的泛化能力。
May, 2024
通过比较性实验,我们识别出多模态偏好优化中的无条件偏好问题,并提出mDPO,一种多模态DPO目标,通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点,强制奖励对于选择的回答是正面的,从而避免相对偏好优化的内在问题。在两种不同规模的多模态LLM和三个广泛使用的基准测试中进行的实验表明,mDPO在处理多模态偏好优化的无条件偏好问题上是有效的,并在模型性能方面取得了显著改进,尤其是在减少幻觉方面。
Jun, 2024
本研究针对大型视觉语言模型(LVLMs)在多语言场景下产生幻觉的问题进行了首次探索,指出该现象比英语环境下更为严重。提出了一种双阶段的多语言幻觉去除框架,通过跨语言对齐方法优化模型输出,显著提高了13种语言的准确率,平均提高19.0%。
Aug, 2024
该研究针对多模态大语言模型(MLLMs)在图像跨模态指令处理中的语义对齐问题,提出了一种新方法——语义对齐模型(SAM)。通过在视觉标记提取过程中实现不同图像之间的双向语义指导,SAM显著提升了图像间联系信息的保留,实验结果表明其在组caption任务和故事讲述任务上均明显优于现有方法,显示出巨大的潜在影响。
Aug, 2024
本研究解决了多模态大语言模型(MLLMs)中幻觉现象的成因问题,提出了一种无参数的表示对齐度量(Pfram),能有效测量图像表示系统的相似性。通过利用该度量评估对象注释,我们发现其与多种最先进的MLLMs中的对象幻觉表现出强相关性,从而为改善图像表示和多模态模型设计提出了新的见解。
Sep, 2024