将多模态大型语言模型适应长尾开放世界中的概念漂移

May, 2024

将多模态大型语言模型适应长尾开放世界中的概念漂移

Adapting Multi-modal Large Language Model to Concept Drift in the Long-tailed Open World

Xiaoyu Yang, Jie Lu, En Yu

TL;DR本文研究了长尾的开放世界情景对多模态大语言模型的影响，提出了一种统一框架来解决由长尾问题、尾漂移和分布漂移导致的偏差，并在视觉语言模型的预训练中改善了图像 - 文本对齐的效率和准确性。

Abstract

Real-world data often exhibit extreme imbalances and out-of-distribution (OOD) instances, which significantly biases the model training. While it has been extensively studied in vision and language domains separately, the impact of long-tailed open worlds on multi-modal large language

long-tailed open worlds vison-language models tail drift out-of-distribution drift multi-modal datasets

发现论文，激发创造

探索用于多模态离域检测的大型语言模型

应用世界知识通过选择性生成大型语言模型并利用一致性基准不确定性校正方法来提高过分布检测性能，通过从每个图像提取视觉对象充分利用前述世界知识，充分实验证明本方法始终优于现有技术。

Oct, 2023

大型语言模型的超出分布检测能力如何？

通过对大型语言模型进行实证研究，本文发现余弦距离的异常检测器表现出卓越的效力，优于其他异常检测器，并通过强调大型语言模型嵌入空间的各向同性特征，提供了对这一现象的有趣解释，进一步增强了我们对大型语言模型在检测异常数据方面的适应性和可靠性。

Aug, 2023

EAT：面向长尾领域外检测

通过引入多个放弃类来扩展内分布类空间并通过虚拟标签训练识别 OOD 数据的检测器，以及通过将图片叠加到具有丰富上下文的 OOD 数据以增强对尾类特征的注意力，我们提出的方法在长尾 OOD 检测任务中表现优于最先进方法，并可作为现有长尾学习方法的附加模块，显著提升 OOD 检测性能。

Dec, 2023

CRoFT：用于 OOD 泛化和开放集 OOD 检测的鲁棒微调和并发优化

本文提出了一种能够改善视觉 - 语言预训练模型（VL-PTMs）对闭集外分布数据的泛化能力，同时在微调期间有效检测开放集未知类别的目标函数方法。

May, 2024

利用视觉语言表示探究外域检测

该研究提出 Maximum Concept Matching（MCM）这一零样本的多模态算法来识别异常数据，利用视觉特征与文本概念进行对齐。研究发现 MCM 比单模态算法在效果上更为优秀，特别是结合视觉 - 语言特征时。

Nov, 2022

主题、领域和语言变化的桥梁：综合离域场景的评估

在真实世界中，语言模型在超出分布范围的场景中的泛化能力变得更低，基于提示的微调方法在语义差异较大的任务中表现更好，而基于梯度的学习存在结构障碍的偏差问题。

Sep, 2023

您的精调大型语言模型已是强大的超分布检测器

通过重新审视预训练大型语言模型和其微调变体之间的似然比作为一种区分所需分布检测的标准，我们展示了似然比可以作为一种有效的 OOD 检测器，并将其应用于问题回答系统中以改善 LLMs 在一般问题上的性能。

Apr, 2024

开放世界中的大规模长尾识别

研究开放式长尾识别（OLTR）算法，该算法需能在学习具有长尾分布的数据、分类多数和少数类别以及识别未知类别的情况下优化分类准确率，采用动态元嵌入技术实现快速识别，对三种数据集进行的实验结果表明，该算法在 OLTR 领域已处于领先地位。

Apr, 2019

开放世界的长尾问题回答

本文定义了 OLTQA 模型，它通过在预训练语言模型中挖掘知识和引入 retrieve-then-rerank 框架来支持各种 QA 任务，并提出了适应性的相互知识蒸馏方法联合训练框架和 QA 模型，在 43 个现有 QA 数据集上更好地执行。

May, 2023

利用大型语言模型对异常样本曝光进行预测以进行离群检测

通过利用大型语言模型的专业知识和推理能力，我们提出了一种名为 “Envision potential Outlier Exposure”（EOE）的方法，可以在没有访问任何真实 OOD 数据的情况下，通过视觉相似性生成潜在异常类标签并设计有效的分数函数来区分困难的 OOD 样本，从而实现在不同 OOD 任务上的最先进性能，并能扩展到 ImageNet-1K 数据集。

Jun, 2024