Plex: 利用预训练的大型模型扩展实现可靠性

Jul, 2022

Plex: 利用预训练的大型模型扩展实现可靠性

Plex: Towards Reliability using Pretrained Large Model Extensions

Dustin Tran, Jeremiah Liu, Michael W. Dusenberry, Du Phan, Mark Collier...

TL;DR本研究探讨了人工智能中预训练模型的可靠性，并开发了视觉和语言的大型预训练模型扩展ViT-Plex和T5-Plex，通过40个数据集上的10种任务评估不同方面的可靠性，包括选择性预测、开放集识别、准确性和适应性，Plex显著提高了可靠性，同时改善了开箱即用的性能。

Abstract

A recent trend in artificial intelligence is the use of pretrained models for language and vision tasks, which have achieved extraordinary performance but also puzzling failures. Probing these models' abilities i

发现论文，激发创造

超越言语：测试预训练V&L模型在计数任务中的跨模态能力

本研究探讨了预训练视觉和语言模型在两个需要多模态集成的任务中的推理能力：（1）区分正确的图像-句子对与不正确的对，以及（2）计算图像中的实体。结果显示，预训练的V＆L模型非常擅长解决任务（1），但无法充分解决任务（2），即计数探针，并不能推广到不同分布的数量。研究为我们提供了一些对这些发现的解释，并建议理解这些模型的推理和基础能力需要更有目的的调查。

Dec, 2020

视觉语言预训练模型：一项调查

本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功，着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略，并提出了未来三个方向的研究建议。

Apr, 2022

VLUE: 一个评估视觉语言模型的多任务基准

本研究介绍了一个名为VLUE的视觉语言理解评估基准，可用于评估VLP模型的泛化能力和效率-性能权衡。该基准显示了所有VLP模型在处理来自更多文化领域且未在预训练中出现的图像时存在较大的泛化差距，并且衡量VLP模型的效率-性能权衡可为设计选择提供有益见解。

May, 2022

促进GPT-3的可靠性

本研究为了提高OpenAI GPT-3的可靠性，将其可靠性分解为四个方面：泛化性、社会偏见、校准性和事实性，并建立了简单有效的提示来提高其可靠性。通过适当的提示，GPT-3在所有这些方面都比规模较小的监督模型更可靠。

Oct, 2022

GLUE-X: 从越界泛化角度评估自然语言理解模型

本文介绍了创建一个名为GLUE-X的统一基准的首次尝试，该基准用于评估自然语言处理模型中的OOD鲁棒性，在13个公开可用的OOD测试数据集上验收模型，发现模型在OOD任务上的性能明显下降，对提高模型鲁棒性提供了一些见解和改进方案。

Nov, 2022

语言空间中的图像：探索大语言模型在视觉和语言任务中的适用性

本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息，解决了在有限样本时视觉-语言任务的问题，使输出更易于解释。

May, 2023

机器视觉治疗：多模态大型语言模型通过去噪上下文学习增强视觉鲁棒性

我们提出了一种有效利用MLLMs进行机器视觉治疗的方法，通过与去噪标签进行微调，以无监督的方式提高学习模型的性能，并通过提出的DICL策略解决了MLLMs与视觉任务的兼容性问题。

Dec, 2023

预训练语言模型的参数高效微调方法：关键评估与考察

预训练语言模型与基于它们的参数高效微调方法被综合评述，重点讨论了内存效率和计算资源限制等参数效率问题以及应用于下游任务的挑战和机遇。

Dec, 2023

一致性与不确定性：从黑盒视觉语言模型中鉴别不可靠的响应，以进行选择性视觉问答

在黑盒子中研究选择性预测，使用邻域一致性原则识别可靠性低的图像 - 语言模型在问答任务中的响应。

Apr, 2024

混合专家调查

大型语言模型（LLMs）通过其巨大的模型规模、丰富多样的数据集和庞大的计算能力的训练，获得了在自然语言处理、计算机视觉等领域的前所未有的进展。混合专家（MoE）作为一种有效的方法，以最小计算开销显著扩展模型容量，受到学术界和行业的广泛关注。本调查旨在弥补对MoE文献缺乏系统全面综述的空白，为研究人员深入探讨MoE的复杂性提供重要资源。我们首先简要介绍MoE层的结构，然后提出了新的MoE分类法。接下来，我们概述了各种MoE模型的核心设计，包括算法和系统方面，以及可用的开源实现、超参数配置和实证评估的集合。此外，我们还勾画了MoE在实践中的多方面应用，并概述了一些未来研究的潜在方向。为促进MoE研究中最新进展的持续更新和共享，我们创建了一个资源存储库，可访问此https网址。

Jun, 2024