阅读就是信仰：重新审视语言瓶颈模型对图像分类的作用

Jun, 2024

阅读就是信仰：重新审视语言瓶颈模型对图像分类的作用

Reading Is Believing: Revisiting Language Bottleneck Models for Image Classification

PDF

Honori Udo, Takafumi Koshinaka

TL;DR通过将现代图像描述器与预训练的语言模型相结合，语言瓶颈模型在灾害图像分类任务中能够超过黑盒模型的分类准确率，并且通过融合两者可以产生协同效应，进一步提高分类准确率。

Abstract

We revisit language bottleneck models as an approach to ensuring the explainability of deep learning models for →

language bottleneck models explainability deep learning models image classification black-box models

发现论文，激发创造

瓶中之语：语言模型引导的概念瓶颈用于可解释的图像分类

本研究提出了一种基于 GPT-3 语言模型的 LaBo 方法来构建 Concept Bottleneck Models，LaBo 可以有效地搜索与给定问题领域相关的候选瓶颈概念，通过将 GPT-3 的句式概念与图像对齐形成瓶颈层，最终实验结果显示，LaBo 提高了 11.7% 的准确性，证明了解释性模型的广泛应用前景。

Nov, 2022

透过语言瓶颈学习分类：言语中的视觉

本研究训练了一个视觉模型，使用基于文本的特征表征图像，以达到在图像分类方面有效且具有可解释性的成果，进一步探讨了训练过程中遇到的挑战。

Jun, 2023

通过概念瓶颈模型实现强大且可解释的医学图像分类器

通过使用自然语言概念，我们提出了一种建立强大而可解释的医学图像分类器的新范式，有效地解决了深度学习模型在医疗行业应用中学习虚假相关性而不是期望特征以及缺乏可解释性的问题。

Oct, 2023

信息瓶颈下的解释再生

研究开发了一种名为信息瓶颈方法的技术，该技术可以生成自然而准确的自由文本解释来解释自然语言生成模型的输出，并且在两个领域任务的自动评估和人类评估中得到了验证。

Dec, 2022

基于卷积神经网络的图像字幕语言的实证研究

本研究介绍了一种基于卷积神经网络的语言模型，适用于统计语言建模任务，在图像字幕生成中表现出竞争性能。相比以前的模型，它使用所有先前的单词进行训练，可以模拟历史单词的长期依赖性，这对图像字幕生成至关重要。该方法在 MS COCO 和 Flickr30K 两个数据集上进行了验证，实验结果显示，相较于基于循环神经网络的语言模型表现更佳，且具有竞争性的最先进技术。

Dec, 2016

图像分类中瓶颈概念的学习

该论文介绍了一种基于自监督学习和定制的正则化器来实现图像分类任务中深度神经网络解释性的 Bottleneck Concept Learner 方法。

Apr, 2023

图像字幕的语言模型：习惯和奏效

该研究比较了不同的语言模型方法在图像字幕生成中的优缺点，并使用与众不同的语言模型方法，结合这些方法在 COCO 数据集上取得了新的记录性能。

May, 2015

利用语言塑造视觉表示进行少样本分类

本文提出了一种语言塑造的学习方法（LSL），通过利用语言作为监督信号，可以提高小样本学习的效果，在两个具有挑战性的少样本数据集上表现良好。

Nov, 2019

通过迭代生成的概念瓶颈实现可解释性的文本分类

提出一种名为 Text Bottleneck Models（TBMs）的可解释性文本分类框架，通过使用 Large Language Model（LLM）自动发现和测量一组显著概念，并利用线性层将这些概念值用于最终预测，从而在高风险领域中提供全局和局部解释，进而在广泛文本领域中提高解释性能。

Oct, 2023

重新审视分类器：将视觉语言模型应用于视频识别

该研究重点研究了通过使用不同于传统方法的先前训练模型知识来改进视频分类的方法，简单而有效的调整模式在各种视频识别场景中达到了最先进的表现。

Jul, 2022