LLMRA: 多模态大型语言模型恢复助手

Jan, 2024

LLMRA: 多模态大型语言模型恢复助手

LLMRA: Multi-modal Large Language Model based Restoration Assistant

Xiaoyu Jin, Yuan Shi, Bin Xia, Wenming Yang

TL;DR我们提出了一种基于多模态大语言模型（MLLM）的图像修复框架，名为多模态大语言模型修复助理（LLMRA），通过利用 MLLM 的印象能力来获取通用图像修复的降级信息，并通过 Context Enhance 模块和 Degradation Context based Transformer Network 将这些上下文嵌入整合到修复网络中，提供了输入低质量图像和恢复后高质量图像的低级属性描述。大量实验证明了 LLMRA 在通用图像修复任务中的卓越性能。

Abstract

multi-modal large language models (mllms) have a significant impact on various tasks, due to their extensive knowledge and powerful perception and generation capabilities. However, it still remains an open resear

multi-modal large language models mllms image restoration context enhance module degradation context

发现论文，激发创造

LLMGA: 基于多模态大型语言模型的生成助手

该研究介绍了一种基于多模态大型语言模型的生成助手（LLMGA），利用大型语言模型（LLM）中内在的知识和理解能力，帮助用户进行图像生成和编辑，通过精确控制生成提示实现对稳定扩散（SD）的控制，以提供更精细、准确的内容和更直观的网络解释性，同时还提出了一个两阶段的训练方案来优化 SD 的生成结果，并引入基于参考的恢复网络来减少图像编辑过程中生成区域与保留区域之间的纹理、亮度和对比度差异。广泛的实验结果表明，LLMGA 具有很好的生成能力，并能以交互方式在更广泛的应用中发挥作用。

Nov, 2023

美餐之眼：多模态大型语言模型的分辨率混合适应

基于图像分辨率的新型多模态大语言模型方法 (LLaVA-HR) 通过采用低分辨率和高分辨率图像特征的组合有效地改善了视觉识别的问题，在 11 个视觉 - 语言任务中表现出比现有模型更好的性能。

Mar, 2024

u-LLaVA: 通过大型语言模型统一多模态任务

通过将 LLM 作为连接多个专家模型的桥梁，采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。

Nov, 2023

RRAML: 强化检索增强机器学习

通过提出一种名为增强检索增强机器学习（RRAML）的新型框架，将大型语言模型的推理能力与用户提供的数据库中的检索信息相结合，有效地解决了 API 文本输入的上下文限制和外部数据源可用性的局限性。

Jul, 2023

基于大型语言模型的上下文增强视频片段检索

通过引入大型语言模型（LLMs）的广泛知识，我们提出了一种大型语言模型引导的时刻检索（LMR）方法，以改善视频上下文表示和跨模态对齐，从而实现准确的目标时刻定位。

May, 2024

构建更好的基于大型语言模型的稠密检索模型

提出了一种新颖的方法 LLaRA（LLM 适应于密集检索），它作为 LLM 的事后适应工具，用于密集检索应用。LLaRA 包括两个预处理任务：EBAE (基于嵌入的自编码) 和 EBAR (基于嵌入的自回归)，其中来自 LLM 的文本嵌入用于重建输入句子的标记并预测下一句的标记。LLaRA 简单、轻量且高效，应用于 LLMaMA-2-7B（基础）模型，在维基百科语料库上大大提升了模型对各种密集检索基准（如 MSMARCO 和 BEIR）的微调性能。

Dec, 2023

RJUA-MedDQA: 医学文件问题回答和临床推理的多模态基准测试

最近对大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 的进展表明其在各种医疗应用中具有潜力，如智能医学诊断。本研究引入了综合医学专业领域的 RJUA-MedDQA 基准测试，用于全面解释各种医学报告的复杂性和专门的深入推理能力。我们设计了数据生成流程，并提出了高效的结构恢复注释 (ESRA) 方法，可显著提高注释效率并提供 26.8% 的准确率改进。通过使用 ESRA 方法生成的图像 - 文本，在 5 个能够解决中文医学问答任务的 LMMs 上进行了全面评估和少样本评估。我们对一组强大的 LLMs 进行了比较实验，发现现有的 LLMs 性能仍受限制，但与 LMMs 相比，LMMs 在低质量和多样化结构的图像上更加稳健。跨上下文和图像内容的推理具有重大挑战。希望此基准测试有助于推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。

Feb, 2024

RAR: 检索与排序增强型 MLLM 用于视觉识别

CLIP 和 Multimodal Large Language Models（MLLMs）在识别广泛的候选人方面具有优势，RAR 结合了两种方法的优点，并通过建立多模式检索器和对 MLLMs 进行排名来提高对广泛和细粒度词汇的几次 / 零次识别能力，该方法在细粒度视觉识别、几次拍摄图像识别和零次识别设置下的物体检测等任务中显著提升了准确性。

Mar, 2024

Octavius: 通过 MoE 减少 MLLMs 的任务干扰

通过介绍新颖且可扩展的框架 LaRA-MoE，本研究通过大型语言模型在多模态学习方面的综合研究和实验，展示了在各种二维和三维下游任务中设计的开创性的 LoRA-MoE 解码器的有效性和多样性（提升约 20%），以及更多其他模态和任务的导入在性能上可能引起的负面冲突和干扰。

Nov, 2023

检索增强的多模态语言建模

提出了一种 “检索增强的多模态模型”，结合了预检索检索任务和预训练的模型，在图像生成和描述生成任务上实现了比以前模型更好的表现，同时大大降低了训练成本。

Nov, 2022