exBERT：一种可视化分析工具，用于探索 Transformers 模型中学习到的表示

Oct, 2019

exBERT：一种可视化分析工具，用于探索 Transformers 模型中学习到的表示

exBERT: A Visual Analysis Tool to Explore Learned Representations in Transformers Models

Benjamin Hoover, Hendrik Strobelt, Sebastian Gehrmann

TL;DR通过互动工具 exBERT，可以通过将人类指定的输入与大型已注释的数据集中的类似上下文进行匹配，来揭示上下文表示的意义，从而更直观地解释每个注意力头都学习了什么。

Abstract

large language models can produce powerful contextual representations that lead to improvements across many NLP tasks. Since these models are typically guided by a sequence of learned →

large language models self attention mechanisms interactive tools contextual representations inductive biases

发现论文，激发创造

VisBERT: 针对 Transformers 模型的隐藏状态可视化

为了解决 BERT 模型在 NLP 任务中的解释和可视化问题，本文提出了一种工具 VisBERT，通过可视化 BERT 模型中的上下文令牌表示，观察该模型在每个编码器块中如何转换语义表达，并探索其推理步骤或潜在缺陷。

Nov, 2020

ExBERT: 外部知识增强的自然语言推断 BERT 模型

本文提出了一种新的 NLI 模型 ——ExBERT，它可以利用外部知识源对 BERT 的上下文表示进行丰富，从而提升 BERT 的语言理解和推理能力，并在挑战性的 SciTail 和 SNLI 基准测试中实现了优异的表现。

Aug, 2021

ExpBERT: 使用自然语言解释进行表达工程

本文介绍了一种使用自然语言解释规定归纳偏好的方法，并使用多级别自然语言推理模型 BERT 以及少量标记数据，在三种关系提取任务上提高了基础模型的 F1 分数，并减少了所需标记的数据量。

May, 2020

具身 BERT：一种用于具身、语言引导的视觉任务完成的 Transformer 模型

EmBERT 是一种基于 transformer 的模型，具有语言指导的目的完成能力。它是第一个能够成功处理 ALFRED 的历史记录、多模态的长时间跨度的 transformer 模型，同时也是第一个在 ALFRED 中使用对象导航目标的模型。

Aug, 2021

关于 BERT 说明解释的实证研究：序列分类

本文对 BERT 在序列分类任务中的决策方法进行解释，并对现有的四种属性方法进行了广泛的分析，以应用于四个不同的情感分析数据集。通过各种消融研究比较了每种方法的可靠性和稳健性，并测试属性方法是否能解释语义上相似的任务的广义语义。

Jan, 2021

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

AttentionViz: Transformer 注意力的全局视图

本文介绍了一种新的可视化技术，旨在帮助研究人员理解转换器中的自我注意机制，并演示了基于 query-key 嵌入的交互式可视化工具 AttentionViz，以改进模型的理解和提供关于查询 - 键交互的新见解。

May, 2023

XDBERT：从跨模态系统中提取视觉信息以改善语言理解的 BERT 知识蒸馏模型

本文旨在研究如何将预训练的异模态 transformers 的视觉信息提炼给语言编码器，提出了一个被称为 XDBERT 的新框架，经过训练后在常规语言理解评估（GLUE）、有对抗生成的情况（SWAG）以及可读性基准测试上比预训练的 BERT 表现更好，并分析了 XDBERT 在 GLUE 上的表现，证明了改进很可能是基于视觉语言的。

Apr, 2022

语言理解的语义感知 BERT

提出了一种改进的语言表示模型 Semantics-aware BERT，通过集成来自预训练语义角色标注的显式上下文语义，从而在十项阅读理解和语言推理任务中获得了新的最先进或实质性改进的结果，以促进自然语言理解。

Sep, 2019

层级 Transformer 用于长文档分类

该研究介绍了如何通过引入基于循环层或其他 Transformer 的单输出层对长文本进行 BERT 模型的微调，成功将其应用于客户电话满意度预测和话题分类任务中，并在两个任务中取得了显著的改进。

Oct, 2019