BERT 受到惊讶的方式？语言异常的逐层检测

ACLMay, 2021

BERT 受到惊讶的方式？语言异常的逐层检测

How is BERT surprised? Layerwise detection of linguistic anomalies

Bai Li, Zining Zhu, Guillaume Thomas, Yang Xu, Frank Rudzicz

TL;DR本篇论文通过在三种语言模型（BERT，RoBERTa 和 XLNet）的中间层使用高斯模型进行密度估计，评估了我们的方法。结果表明，语言模型使用不同的机制来检测不同类型的语言异常，语义异常和常识异常在 RoBERTa 模型上没有在任何中间层中表现出异常惊异。

Abstract

transformer language models have shown remarkable ability in detecting when a word is anomalous in context, but likelihood scores offer no information about the cause of the anomaly. In this work, we use gaussian models

transformer language models gaussian models density estimation anomalies linguistic mechanisms

发现论文，激发创造

基于 Transformer 的语言模型惊奇度在使用约 20 亿训练令牌时最能预测人类阅读时间

本文研究了基于 Transformer 的语言模型中，各种训练数据和不同容量的模型对于预测人类阅读时间的作用，并发现多数具有当代模型能力的变体，使用约 20 亿个训练标记后，所给出的 surprisal estimates 提供了最佳适合度，而较大的预先训练语言模型的较差适合度主要归咎于大量的训练数据，而 transformer-based 语言模型的某种程度的模型容量对于模型要捕捉类似于人类的期望是必要的。

Apr, 2023

多语言 BERT 模型的词形句法探测

本研究介绍了一个广泛的多语言探测词形信息数据集，利用预训练变形金刚模型（mBERT 和 XLM-RoBERTa），并应用两种方法确定输入中区别信息的位置以实现强大的性能。其中最显著的发现是前缀上下文持有比后缀上下文更多相关预测信息。

Jun, 2023

基于 BERT 的语言模型在口语转录中学习的实证研究

本文介绍了将自然语言处理的特性应用于口语语言理解上，包括不同的话语特征和多模态表现。该文尝试拆解口语的语言障碍和多重意思，并探讨了 BERT 和 RoBERTa 语言模型对 SLU 的适应性和局限性。文中还验证了语言模型对话语特征的表现，尤其是对于声学提示较少的语音模型的成果。

Sep, 2021

探究大型语言模型中的意外性在语音合成韵律中的作用

本文研究使用词汇惊奇度作为特征，以帮助语音合成韵律。研究通过实验发现，惊奇度和词重要性有适度关联，但使用惊奇度值来调整韵律模型的效果有限。

Jun, 2023

语言模型性能度量在心理语言学建模中的应用：人们阅读行为的概率预测

通过对现代神经结构的分析，提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell（2018 年）的观点，证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络，变形器和预训练模型。

Sep, 2020

打开西门子：深入探讨 BERT 的语言知识

本文探讨了 BERT 对句法层次结构、位置信息以及自注意力向量的编码，并发现 BERT 在较低的层次上良好地编码了位置信息，在较高的层次上则更倾向于编码层次结构，这表明 BERT 的表示法确实模拟了语言的一些层次结构，并且对于处理反身代词的普遍敏感性没有人类大脑那么强。

Jun, 2019

Civil Comments 数据集上有害评论分类的基准

比较多个模型在高度倾斜的多标签仇恨言论数据集上进行毒性评论检测，结果表明 BERT、RNN 和 XLNet 对关联身份的偏见较不敏感，RoBERTa 的 Focal Loss 表现最佳，而 DistilBERT 则结合了良好的 AUROC 和低推理时间。

Jan, 2023

词汇、次词及形态素：令人惊讶度与阅读时间之间真正的关系是什么？

基于 LLMs 的预测基于子词标记而不是词素分解，我们通过比较使用拼写、词素和 BPE 标记的惊异估计与阅读时间数据来仔细测试这一重要假设，我们的结果重现了以前的研究发现并提供了证据，表明使用 BPE 标记的预测相对于词法和拼写分割并没有出现问题，但经过更详细的分析发现依赖于 BPE 标记可能存在潜在问题，同时也提供了相关研究的有希望结果，并提出了一种评估词素预测的新方法。

Oct, 2023

离群维度扰乱变压器的原因是频率驱动

通过相关研究表明，Transformer-based 语言模型对剪枝通常非常强壮，但存在异常现象：仅禁用 BERT-base 的 110M 个参数中的 48 个，MNLI 的性能就下降了近 30％。该现象被认为与嵌入空间的几何形状有关，并且为减少未来模型中的异性提供了线索。

May, 2022

在多语言 BERT 中发现通用语法关系

本研究针对多语言 BERT 的序列到序列建模进行实验，证实其不需要训练就能够实现跨语言的转化，并提出一种无监督的分析方法，证明 Multilingual BERT 可以学习到一定的语言普遍规律。

May, 2020