BERTs 是生成上下文学习者

Jun, 2024

BERTs are Generative In-Context Learners

David Samuel

TL;DR本文探讨了掩码语言模型的上下文学习能力，挑战了常见观点，即这种能力在它们中并没有 ' 出现 '。我们提出了一种令人尴尬地简单的推理技术，使得 DeBERTa 能够作为一个生成模型进行操作，无需额外训练。我们的研究结果表明，DeBERTa 能够与甚至超过 GPT-3，后者以引入上下文学习范式而闻名。比较分析表明，掩码和因果语言模型的行为非常不同，它们在不同类别的任务上明显超越对方。这表明存在一个能充分利用两个训练目标优势的混合训练方法的巨大潜力。

Abstract

This paper explores the in-context learning capabilities of masked language models, challenging the common view that this ability does not 'emerge' in them. We present an embarrassingly simple inference technique that enables →

in-context learning masked language models deberta generative model hybrid training

发现论文，激发创造

BERT、mBERT 还是 BiBERT？关于上下文化嵌入用于神经机器翻译的研究

本研究通过将定制和合适的双语预训练语言模型（称为 BiBERT）的输出（上下文嵌入）作为神经机器翻译编码器的输入，展示了实现最先进的翻译性能的方法，并提出了一种随机层选择方法和双向翻译模型的概念，以确保充分利用上下文嵌入。

Sep, 2021

条件 BERT 上下文增强

提出一种名为条件 BERT 上下文增强的有标注句子的新数据增强方法，基于 BERT 的条件掩蔽语言模型，通过替换预测到的更多变化的子词来增加标注的语句的多样性，实验显示该方法可以轻松应用于卷积或循环神经网络分类器中以获得明显的改进。

Dec, 2018

上下文 BERT：使用全局状态对语言模型进行调节

该论文提出了两种新的全局状态方法，将其应用到时尚搭配领域，通过具体客户特征进行服装搭配，实验比较表明这种方法能显著提高个性化推荐的效果。

Oct, 2020

DialogBERT: 通过学习恢复和排序话语生成具有话语意识的响应

本文提出了 DialogBERT，这是一种新型的对话响应生成模型，通过使用分层 Transformer 架构和两个训练目标，包括掩码语调回归和分布式语调顺序排名来提高先前基于 PLM 的对话模型，在三个多轮对话数据集上进行实验证明，相比于 BART 和 DialoGPT，DialogBERT 在定量评估方面表现出色，并且在人类评估中证明，DialogBERT 比基线模型生成的响应更连贯、信息量更大，并更加接近人类表现。

Dec, 2020

BERT 模型知识压缩在文本生成中的应用

该研究的主要目的是探讨如何利用大规模的预训练语言模型如 BERT 来进行语言生成任务，并提出了一种基于条件掩码语言建模（C-MLM）的方法，使用 BERT 对学生模型进行监督，从而实现更好的文本生成性能，实验证明该方法在多语言生成任务上明显优于强大的 Transformer 基线，包括机器翻译和文本摘要，并在 IWSLT 德英和英越 MT 数据集上取得了新的最优效果。

Nov, 2019

BERT-Defense: 基于 BERT 的概率模型用于抵御认知启发式正交攻击

本文研究在深度学习系统中敌对攻击的问题，使用字符级攻击并检验了几种防御方法和模型，表明一种无监督的迭代方法与 BERT 的掩码语言模型相结合可以达到与人类众包工人相当的效果。

Jun, 2021

基于创新的 Bert 重新排序语言模型在语音识别中的应用

本文利用 BERT 模型重新排序自动语音识别中的 N 个最优假设，同时融合了任务特定的全局主题信息。实验表明，相较于循环神经网络和利用 BERT 计算伪对数似然分数的方法，本方法在 AMI 基准语料库上的有效性和可行性得到了证实。

Apr, 2021

使用遮蔽注意力生成探测大脑上下文敏感性

利用 GPT-2 变形金刚生成的单词嵌入来测试大脑对自然文本中背景信息的反应，结果表明语言网络中的大多数皮层对背景信息敏感，右半球对于较长场景的反应比左半球更敏感，支持以前的上下文敏感度分析并有助于量化每个体素的上下文整合窗口大小。

May, 2023

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

大型语言模型中的上下文翻译发生在哪里

通过层次上的上下文遮蔽实验，我们证明了大型语言模型中存在一个任务识别点，该点将任务编码到输入表示中，不再需要注意上下文，同时还观察到在层次遮蔽时的低性能与任务识别层之间的对应关系，利用这种冗余性可在提示 5 个示例时节省 45% 的计算量，任务识别在第 14/32 层达到，并且层次微调实验表明对于 MT 微调来说，最有效的层次是关键的任务识别层。

Mar, 2024