采用检索方法增强先前训练和微调,提出了一种新的框架用于增强常识生成,通过原型句子候选集,进一步使用可训练的句子检索器提高其性能,并在大规模 CommonGen 基准测试上实现了最新的最优结果。
May, 2021
基于多模态知识的常识推理是根本,我们介绍了一种方法来增强大型语言模型的视觉常识能力,该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上,还在传统自然语言处理基准上优于现有基线模型。
Jun, 2024
本文提出了一种统一的基于检索增强的通识推理框架(RACo),包括一个新构建的包含 2000 万个文档的通识语料库和训练通识检索器的新策略。对四个不同的通识推理任务进行的广泛评估结果表明,我们提出的 RACo 可以显著优于其他知识增强方法的竞争者,在 CommonGen 和 CREAK 排行榜上取得了新的 SoTA 性能。
Oct, 2022
本文综述了检索多模态知识以辅助和增强生成模型的方法,并提供了对从外部来源(包括图像、代码、表格、图形和音频)检索根据的关注点的深入探讨,包括事实性、推理、可解释性和鲁棒性。
Mar, 2023
本研究探讨了利用图像中的多模态信息增强文本生成 Transformer 模型通用知识的有效方法。我们使用 BART 和 T5 进行了实验,并通过 VisCTG 方法成功地改善了通用知识、流畅性和特定性等问题的基线文本生成模型。
Sep, 2021
提出了一种 “检索增强的多模态模型”,结合了预检索检索任务和预训练的模型,在图像生成和描述生成任务上实现了比以前模型更好的表现,同时大大降低了训练成本。
Nov, 2022
通过引入一种名为 RMR 的新型多模式 RAG 框架,本研究在多模式视觉语言模型中整合了基于检索的答案生成和推理能力,并通过提供相关问答对进行训练来显著提高各种基准数据集上的性能,凸显该框架在改善视觉语言模型的推理能力方面潜力巨大。
May, 2024
MuRAG 是第一个多模态检索增强变压器,利用外部非参数多模态存储器来增强语言生成,并在 WebQA 和 MultimodalQA 两个数据集上实现了最新的准确性,优于现有模型 10-20%绝对值。
我们提出了一种创新的端到端生成框架,用于多模态知识检索,通过利用大型语言模型 (LLMs) 作为虚拟知识库,使用对象感知的前缀调优技术来指导多粒度视觉学习,将多粒度视觉特征对齐到 LLM 的文本特征空间中,通过统一格式的指令数据构建模型训练,最后,我们提出了知识引导的生成策略,在解码步骤中施加先验约束,促进独特知识线索的生成,在三个基准测试中实验证明,与强基线方法相比,在所有评估指标上均取得了 3.0% 到 14.6% 的显著改进。
Jan, 2024
我们提出了一种迭代检索 - 生成的协作框架,该框架可以利用参数化和非参数化知识,帮助找到正确的推理路径,并显著提高大型语言模型的推理能力。实验结果显示我们的方法优于之前的基线模型,在单跳和多跳问答任务上取得了显著的改进。
Oct, 2023